LLMBar

Benchmarks

Task Name	Dataset Name	SOTA Result
Robustness Evaluation	LLMBar	Accuracy83.07	8
LLM-as-a-Judge Calibration	LLMBar (test)	Test Risk (MSE)0.194	7
Reward Modeling	LLMBar (test)	Test MSE (Table)0.2039	5
Quality-judgment accuracy	LLMBar ZH condition	Strict Accuracy (%)86.5	4
Quality-judgment accuracy	LLMBar EN condition	Strict Accuracy (LLMBar EN)89.5	4
Quality-judgment accuracy	LLMBar LS	Strict Accuracy86.5	4

Showing 6 of 6 rows