Share your thoughts, 1 month free Claude Pro on usSee more

Relative Robustness Analysis on Combined Past Tense, OR-Bench, MMLU

78.9R-Score

Only Scaling

Updated 3mo ago

Evaluation Results

Method	Links
Only Scaling 2025.09		78.9	46.4
SFT (5/95) 2025.09		75.6	39.8
ASGUARD 2025.09		74.6	58.8
ASGUARD 2025.09		73.7	46.3
RepBend 2025.09		72.8	41.9
SFT (5/95) 2025.09		72.4	46.7
ASGUARD 2025.09		71.8	52.9
Only Scaling 2025.09		71.6	50.3
RepE 2025.09		70.5	37.2
ASGUARD 2025.09		70.1	44.6
DPO 2025.09		69.8	35.4
DPO 2025.09		69.5	36.7
SFT (30/70) 2025.09		68.6	44.3
CB 2025.09		68	35
Head Ablation 2025.09		67.9	36
SFT (5/95) 2025.09		67.6	37.3
CB 2025.09		67.1	35.5
Head Ablation 2025.09		66.9	38.5
DPO 2025.09		66.9	35
SFT (30/70) 2025.09		66.4	58.7
RepE 2025.09		66.3	35.7
CB 2025.09		66	37
RepBend 2025.09		65.7	48.4
DPO 2025.09		65.5	33.8
Head Ablation 2025.09		65.5	35.8
RepBend 2025.09		64.9	34.9
RepE 2025.09		64.5	32.8
Only Scaling 2025.09		64.3	37.7
RepE 2025.09		61.9	33.9
RepBend 2025.09		60.2	40.6
SFT (5/95) 2025.09		58.6	48.3
Head Ablation 2025.09		57.3	35.1
SFT (30/70) 2025.09		56	47
SFT (30/70) 2025.09		52.2	45.6
CB 2025.09		30.6	36.3
Only Scaling 2025.09		5.92	8.96