Share your thoughts, 1 month free Claude Pro on usSee more

Multimodal Autoformalization on PHYX Modern

71.4Compile Rate

GPT-5

Updated 4mo ago

Evaluation Results

Method	Links
GPT-5 2026.01		71.4	71.4	42.9
Gemini-3-Pro 2026.01		57.1	42.9	-
GPT-5 2026.01		37.5	12.5	-
Gemini-3-Pro 2026.01		14.3	14.3	14.3
Gemini-2.5-Pro 2026.01		14.3	14.3	0
Gemini-2.5-Pro 2026.01		0	0	-
Qwen3-VL-235B 2026.01		0	0	0
Qwen3-VL-235B 2026.01		0	0	-
Qwen2.5-VL-72B 2026.01		0	0	0
Qwen2.5-VL-72B 2026.01		0	0	-