Share your thoughts, 1 month free Claude Pro on usSee more

General Language Model Evaluation on Comprehensive Evaluation Suite

50.7Overall Average Score

CARE-RL

Updated 1mo ago

Evaluation Results

Method	Links
CARE-RL 2026.05		50.7
MOPD 2026.05		49.8
MGS 2026.05		49.3
V→NV 2026.05		48.3
NV→V 2026.05		48.3
CARE-RL 2026.05		47.9
Naive Mixing 2026.05		47.8
MOPD 2026.05		46.9
MGS 2026.05		45.9
V→NV 2026.05		44.9
NV→V 2026.05		44.7
Naive Mixing 2026.05		44.2
Base 2026.05		41.4
Base 2026.05		37.8