Share your thoughts, 1 month free Claude Pro on usSee more

LLM as a Judge on Chatbot Arena (test)

68.13Accuracy

Gemini-2.5-Pro

Updated 5mo ago

Evaluation Results

Method	Links
Gemini-2.5-Pro 2025.06		68.13
Gemini-2.5-Flash 2025.06		67.25
SynthesizeMe 2025.06		66.73
SynthesizeMe 2025.06		66.37
SynthesizeMe 2025.06		64.68
SynthesizeMe 2025.06		64.61
SynthesizeMe 2025.06		63.91
Gemini-2.0-Flash 2025.06		63.2
Qwen2-32B 2025.06		62.22
SynthesizeMe 2025.06		61.83
SynthesizeMe 2025.06		61.8
Qwen2-8B 2025.06		61.41
Qwen2-30B-A3B 2025.06		60.74
GPT4o-mini 2025.06		59.86