Share your thoughts, 1 month free Claude Pro on usSee more

Review Generation on Board Game Playtesting Dataset

99.46Factuality

GPT-5.1

Updated 4mo ago

Evaluation Results

Method	Links
GPT-5.1 2026.01		99.46	0.6934	4.26
Qwen3-235B 2026.01		98.95	0.6572	3.56
MeepleLM 2026.01		98.86	0.7117	4.34
Gemini3-Pro 2026.01		98.28	0.648	3.98
Qwen3-8B 2026.01		97.88	0.5936	1.58
MeepleLM 2026.01		92.13	0.6771	3.56
MeepleLM 2026.01		91.56	0.685	3.7
MeepleLM 2026.01		59.87	0.697	3.3