LLM Alignment

Benchmarks

Dataset Name	SOTA Method	Metric
OpenAssistant	DPPrefSyn	GPT-4o Win Rate87.08	45	1mo ago
HelpSteer (test)	PD	AlpacaEval 2 WR8.34	27	4mo ago
Harmlessness	AlignX	WR87.85	27	2mo ago
AlpacaEval 2.0	GRM + LP	LC Win Rate61.52	25	2mo ago
Ultrafeedback		Win Rate86	24	1mo ago
Evol-Instruct	HighAvg.	Win Rate51.4	24	3mo ago
AlpacaEval	HighAvg.	Win Rate25.24	24	2mo ago
HH-RLHF (test)	RE-Control	Diversity0.87	23	2mo ago
HHRLHF	AAD	Average Oracle Reward-0.02	20	1mo ago
EduFeedback	COALA	TFLOPs152.56	20	2mo ago
UltraFeedback (test)	PD (ours)	AlpacaEval 2 Win Rate (WR)21	18	4mo ago
HH-RLHF 300 prompts	CARDS	Win/Tie Rate vs Vanilla (GPT-4o)69.8	16	4mo ago
SHP	RE-CONTROL + Prompting	Diversity89.3	15	4mo ago
Taobao Live proprietary fine-grained preference dataset	PD (ours)	Win Score1.53	13	4mo ago
AlpacaEval ULTRA 2.0 (test)	COALA	LC WR (%)31.58	12	2mo ago
AlpacaEval IMDB 2.0 (test)	COALA	LC WR39.72	12	2mo ago
AlpacaEval EDU 2.0 (test)	COALA	LC WR40.9	12	2mo ago
AlpacaEval Length-Controlled (test)	UNA-score (MSE)	LC Win Rate8.78	12	2mo ago
Gemma-3-4B	Nash Prox	Win Rate94.33	12	4mo ago
PKU-SafeRLHF	AdaBoN	BWR (Median)49	12	4mo ago
Alpaca, BeaverTails, and TruthfulQA (test)	AlignX	Win Rate97.1	12	4mo ago
Combined Suite Setup 3	AMA Reweighting	Average Percentage Score54.38	9	4mo ago
Capybara		Win Rate28.34	8	1mo ago
Anthropic-HH (test)	DPPrefSyn	GPT-4o Win Rate57.53	8	1mo ago
UltraFeedback (in-domain)	GEB-π	Win Rate (KL, alpha=1)80.6	8	4mo ago

Showing 25 of 42 rows