Ours

Benchmarks

Task Name	Dataset Name	SOTA Result
Tool-use Reasoning	Ours (test)	Solve Precision (P)52.78	27
Causal Discovery	Ours Noisy	AUROC82.3	9
Causal Discovery	Ours Original	AUROC0.821	9
Instruction Following Evaluation	Ours hard seed data	Score56.73	5
Language Detoxification	Ours (test)	Overall Offensiveness Score1.145	5
Body Pose Emotion Classification	Ours (test)	Accuracy93.2	4
Harmful content detection	Ours trolling-oriented synthetic	Accuracy19.88	4
Harmful content detection	Ours CADD-based synthetic	Accuracy65.55	4
Makeup Transfer	Ours (test)	FID11.67	4
Multi-object Dexterous Manipulation	Ours-2 multi-object interaction	SP-SR98.2	2
Radar Human Pose Estimation	Ours	MPJPE (cm)6.425	1
Differential Diagnosis	Ours Auxiliary	Top-5 Accuracy80	1
Fine-grained Score Accuracy	Ours	Exact Accuracy70.56	1

Showing 13 of 13 rows