Share your thoughts, 1 month free Claude Pro on usSee more

LLM as a Judge on PRISM (test)

58.9Accuracy

SynthesizeMe

Updated 4mo ago

Evaluation Results

Method	Links
SynthesizeMe 2025.06		58.9
SynthesizeMe 2025.06		58.36
SynthesizeMe 2025.06		57.8
SynthesizeMe 2025.06		57.76
SynthesizeMe 2025.06		57.37
Gemini-2.0-Flash 2025.06		56.97
SynthesizeMe 2025.06		56.74
Gemini-2.5-Flash 2025.06		56.66
Gemini-2.5-Pro 2025.06		56.51
Qwen2-30B-A3B 2025.06		56.32
Qwen2-32B 2025.06		56.22
GPT4o-mini 2025.06		56.07
SynthesizeMe 2025.06		55.95
Qwen2-8B 2025.06		55.14