Share your thoughts, 1 month free Claude Pro on usSee more

Multi-modal Reasoning on MoMentS

72.26Accuracy

GPT-4o

Updated 3mo ago

Evaluation Results

Method	Links
GPT-4o 2025.07		72.26
Gemini-3.0-Flash* 2025.07		71.31
GPT-4o 2025.07		70.79
GPT-4o 2025.07		70.68
OpenAI o1-full 2025.07		69.15
Gemini-3.0-Flash* 2025.07		68.5
GPT-4o 2025.07		68.12
OpenAI o1-full 2025.07		67.6
Gemini-3.0-Flash* 2025.07		66.8
OpenAI o1-full 2025.07		66.5
Gemini-3.0-Flash* 2025.07		64.8
OpenAI o1-full 2025.07		64.19
Claude-3.5-Sonnet 2025.07		63.75
Claude-3.5-Sonnet 2025.07		62.95
GPT-5.2-High 2025.07		62.95
GPT-5.2-High 2025.07		62.55
GPT-5.2-High 2025.07		62.43
GPT-5.2-High 2025.07		62.32
Claude-3.5-Sonnet 2025.07		62
Claude-3.5-Sonnet 2025.07		61.35
Gemini-2.5-Pro 2025.07		60
OpenAI o3-mini 2025.07		58
OpenAI o3-mini 2025.07		56
Gemini-2.5-Pro 2025.07		55.5
OpenAI o3-mini 2025.07		55.5
Gemini-2.5-Pro 2025.07		55
Gemini-2.5-Pro 2025.07		53
OpenAI o3-mini 2025.07		52.94
LLaVA-v1.6-7B 2025.07		50.2
Qwen2-VL-7B 2025.07		49
LLaVA-OneVision-7B 2025.07		48.21
LLaVA-v1.6-7B 2025.07		48
LLaVA-OneVision-7B 2025.07		46.22
LLaVA-v1.6-7B 2025.07		46
LLaVA-OneVision-7B 2025.07		45.82
LLaVA-OneVision-7B 2025.07		45.5
Molmo-7B 2025.07		45.23
Molmo-7B 2025.07		44.03
Molmo-7B 2025.07		44
LLaVA-v1.6-7B 2025.07		44
Molmo-7B 2025.07		42
Qwen2-VL-7B 2025.07		41.2
Qwen2-VL-7B 2025.07		40.87
Idefics3-8B 2025.07		40
Idefics3-8B 2025.07		37.51
Qwen2-VL-7B 2025.07		37.09
Idefics3-8B 2025.07		36.73
Idefics3-8B 2025.07		35.1