Share your thoughts, 1 month free Claude Pro on usSee more

Multi-modal Multi-image Reasoning on MMT (val)

67.4Accuracy

InternVL2-Llama3-76B

Updated 4mo ago

Evaluation Results

Method	Links
InternVL2-Llama3-76B 2026.01		67.4
GPT-4V 2026.01		64.3
Qwen2VL-7B 2026.01		61.7
InternVL2-8B 2026.01		57.9
LLaVA-OV-7B 2026.01		56.6
Ours (masked) (LLaVA-OV-7B) 2026.01		55.3
Qwen2VL-2B 2026.01		51.9
Ours (LLaVA-OV-1.5B) 2026.01		48.8
Ours (masked) (LLaVA-OV-1.5B) 2026.01		48.1
LLaVA-OV-1.5B 2026.01		47.5
InternVL2-2B 2026.01		46.7
Ours (masked) (LLaVA-OV-0.5B) 2026.01		45.9
Ours (LLaVA-OV-0.5B) 2026.01		45.6
LLaVA-OV-0.5B 2026.01		41.1