Share your thoughts, 1 month free Claude Pro on usSee more

Medical Reasoning on PubMedQA

79.23Accuracy

ReLAR

Updated 18d ago

Evaluation Results

Method	Links
ReLAR 2026.06		79.23	74.17
TMA-AllCompon 2025.08		78.3	-
ReLAR 2026.06		77.67	72.54
Embedding Diversity 2026.06		76.6	-
Ours 2026.06		76.5	-
MedAgents 2025.08		76.4	-
S2L 2026.06		76.4	-
Learnability 2026.06		75.8	-
Middle Perplexity 2026.06		75.8	-
MDAgents 2025.08		75	-
Random 2026.06		75	-
m1k 2026.06		74.9	-
MedGemma-4B 2026.06		74.19	70.71
Med42-Llama3-8B 2026.06		73.87	72.25
TMA-AllCompon 2025.08		73.4	-
DyLAN 2025.08		72.8	-
MedGemma-4B 2026.06		72.45	68.52
Llama-3-8B-Instruct 2026.06		71.83	66.47
Med42-Mistral-7B 2026.06		71.38	63.24
ReConcile 2025.08		70.8	-
Med42-Llama3-8B 2026.06		70.65	70.74
Med42-Mistral-7B 2026.06		69.14	60.53
Llama-3-8B-Instruct 2026.06		68.47	62.83
Mistral-7B-Instruct 2026.06		67.47	60.83
Qwen2.5-Med-7B 2026.06		65.09	57.34
Mistral-7B-v0.3 2026.06		64.57	57.83
Qwen2.5-7B 2026.06		63.84	56.23
Mistral-7B-Instruct 2026.06		63.28	55.84
Gemma-7B 2026.06		61.47	54.28
Qwen2.5-Med-7B 2026.06		60.12	52.48
Mistral-7B-v0.3 2026.06		59.83	52.47
TMA-AllCompon 2025.08		59	-
Qwen2.5-7B 2026.06		58.92	51.47
LLaMA-2-7B 2026.06		58.34	51.67
Gemma-7B 2026.06		56.84	49.73
LLaMA-2-7B 2026.06		53.47	46.83
KARMA 2026.07		52.2	-
Simple SFT (Open-Data) 2026.07		51.2	-
Qwen2.5-7B-Instruct 2026.07		51.1	-
Falcon-7B 2026.06		49.64	42.83
Falcon-7B 2026.06		44.83	37.47
MedRoute 2026.02		38.6	-
MAM 2026.02		37.3	-
GPT-4.1-mini 2026.02		34.5	-
Medichat-Llama3-8B 2026.02		32.81	-
Simple SFT (KARMA-Data) 2026.07		22.9	-
Qwen3-8B 2026.02		20.65	-
MedAlpaca-7B 2026.02		19.9	-