Explanation Quality Evaluation on MMLU-CK (test)

44Reasoning Soundness Loss (%)

PubMed Reasoner

Updated 3mo ago

Evaluation Results

Method	Links
PubMed Reasoner 2026.03		44	10.8	45.2	3.699	25.2	11.7	64.1	3.595	34.4	20	45.6	3.732	35.3	15.9	48.8	3.712
Gemini 2026.03		45.2	10.8	44	3.307	64.1	11.7	25.2	3.209	45.6	20	34.4	3.525	48.8	15.9	35.3	3.386