Arena-Hard

Benchmarks

Task Name	Dataset Name	SOTA Result
LLM Alignment Evaluation	Arena-Hard	Win Rate42.7	73
General Instruction Following	Arena-Hard	Score22.1	46
General Instruction Following	Arena-Hard v2	Score85.9	38
Language Model Alignment Evaluation	Arena-Hard v0.1	Win Rate (%)35.2	36
LLM Alignment Evaluation	Arena-Hard v0.1	Win Rate50	31
Instruction Following	Arena Hard v0.1	Wrong Rate (%)4.5	31
Creative Writing	Arena-Hard Creative Writing v2	Score90.8	25
Instruction Following	Arena-Hard Vanilla	Instruction Following Score57.5	19
Creative Writing	Arena Hard	Win Rate63.5	18
Instruction Following	Arena-Hard Style-Con	Score57.7	17
Human Preference Alignment	Arena-Hard	Win Rate (%)63.9	16
General Chat Evaluation	Arena-Hard	Win Rate84	16
Downstream Policy Performance	Arena-Hard v2.0	Win Rate33.9	14
LLM Evaluation	Arena-Hard v2	Score18.2	14
Dialogue Evaluation	Arena-Hard	Accepted Length (τ)3.29	12
Complex reasoning	Arena-Hard 2.0 (test)	Overall Accuracy52.9	12
Open-domain task	Arena-Hard (test)	Error12.61	12
Open-domain task	Arena-Hard	Error (%)5.17	12
Conversational Skill Evaluation	Arena-Hard	Win Rate (%)32.6	11
Chat Preference	Arena Hard v2	Score79.9	10
Chat Quality Evaluation	Arena-Hard vs gpt-4-0314 (test)	Win Rate57.6	9
Preference Modeling	Arena-Hard V2	Win Rate73.2	9
General Language Model Evaluation	Arena-Hard V2.0	Win Rate7.03	9
LLM Evaluation	Arena-Hard v0.1	Arena-Hard Score78.3	9
Open-ended Generation	Arena-Hard v2.0	Score47.8	8

Showing 25 of 44 rows