Share your thoughts, 1 month free Claude Pro on usSee more

Correctness Prediction on ProntoQA

79.9AUROC

Llama 3.1

Updated 2mo ago

Evaluation Results

Method	Links
Llama 3.1 2026.05		79.9
Llama 3.1 2026.05		76.2
DeepSeek R1 2026.05		67.2
Qwen 3 2026.05		65.7
DeepSeek R1 2026.05		63.9
DeepSeek R1 2026.05		61.5
Qwen 3 2026.05		61.1
Llama 3.1 2026.05		56.6
Qwen 2.5 2026.05		56.5
Qwen 3 2026.05		55.1
Llama 3.2 2026.05		55
Llama 3.2 2026.05		54.9
Llama 3.2 2026.05		53.3
Qwen 2.5 2026.05		51.9
Qwen 2.5 2026.05		47.6