Share your thoughts, 1 month free Claude Pro on usSee more

Large Language Model Evaluation on ARC, TruthfulQA, Winogrande, GSM8K, HellaSwag, and MMLU

73.7ARC Accuracy

DNPO

Updated 4mo ago

Evaluation Results

Method	Links
DNPO 2025.02		73.7	41.7	76.6	33.6	82.7	58.6	61.2
DNPO 2025.02		73.5	39.7	76.5	32.3	82.8	58.7	60.6
DNPO 2025.02		73.4	38.1	76.6	33.4	82.7	58.3	60.4
SPIN 2025.02		70.9	39.3	76.8	28.9	82.6	59	59.6
SPIN 2025.02		70.7	37	76.1	27.6	82	58.5	58.6
SFT 2025.02		70.4	34	76.2	31.8	81	58.8	58.7
SPIN 2025.02		70.3	38.3	75.6	27.5	81.8	57.9	58.6
SPIN 2025.02		70.2	36.2	76	31.6	81.7	58.5	59
DNPO 2025.02		64.6	33.8	72.1	30.3	57.7	56.6	52.5
DNPO 2025.02		64.6	33.7	73	30.7	58	56.8	52.8
DNPO 2025.02		64.3	33.7	72.4	29.6	57.5	56.5	52.3
SPIN 2025.02		63.8	33.3	71.4	28.7	57	56	51.7
SPIN 2025.02		63.7	33	71.8	28.4	56.9	56	51.6
SPIN 2025.02		63.6	33.2	71.9	29.6	56.9	56	51.9
SPIN 2025.02		63.5	33.2	72.1	29.1	56.9	56	51.8
SFT 2025.02		63.4	32.6	72	27.8	56.8	56	51.4