Share your thoughts, 1 month free Claude Pro on usSee more

Multi-judge evaluation on Shared 500-prompt sample

0.87Global Correlation (r)

GPT-5.2

Updated 4mo ago

Evaluation Results

Method	Links
GPT-5.2 2026.03		0.87	0.7	20	69.4
Claude Sonnet 4 2026.03		0.59	0.42	29	47.7
GPT-4.1-mini 2026.03		0.56	0.47	17	43.6
Gemini-2.5-flash 2026.03		0.47	0.27	42	23.8
Llama-3.3-70b 2026.03		0.31	0.23	25	18.6