Share your thoughts, 1 month free Claude Pro on usSee more

Multi-task Evaluation on General and Medical Aggregation

51.8Overall Average

Anchored Learning

Updated 2mo ago

Evaluation Results

Method	Links
Anchored Learning 2026.05		51.8
Base 2026.05		50.8
Low-SFT 2026.05		48.8
Self-sft 2026.05		48.3
Iter-SFT 2026.05		48.3
STM 2026.05		42.5
DFT 2026.05		40.1
KL-SFT 2026.05		12.9
SFT 2026.05		10.4