Share your thoughts, 1 month free Claude Pro on usSee more

Knowledge QA on CDDMBench

88.5QA Accuracy

Qwen-VL-Chat-AG* (7B)

Updated 2mo ago

Evaluation Results

Method	Links
Qwen-VL-Chat-AG* (7B) 2026.01		88.5
Gpt-5-Nano 2026.01		84.5
Agri-CPJ (+ LLM-as-a-Judge) 2026.04		84.5
Qwen-VL-Chat-AG (7B) 2026.01		84
Gpt-5-Nano 2026.01		84
Qwen2.5-VL-3B-Instruct 2026.01		84
Agri-CPJ (+ Caption (Optimized)) 2026.04		84
Gpt-5-Nano 2026.01		76
Agri-CPJ (+ LLM-as-a-Judge) 2026.04		76
Agri-CPJ (+ Few-shot) 2026.04		76
Agri-CPJ (+ Caption (Optimized)) 2026.04		75.5
Agri-CPJ (+ Few-shot) 2026.04		74.5
Qwen2.5-VL-3B-Instruct 2026.01		72.49
Gpt-5-Nano 2026.01		65
Zero-shot (Our Baseline) 2026.04		65
Zero-shot (Our Baseline) 2026.04		65
Qwen2.5-VL-3B-Instruct 2026.01		63
Qwen-VL-Chat (7B) 2026.01		51
Agri-CPJ (+ LLM-as-a-Judge) 2026.04		51
Qwen-VL-Chat (7B) 2026.01		50
Agri-CPJ (+ Few-shot) 2026.04		50
Agri-CPJ (+ LLM-as-a-Judge) 2026.04		49.5
Agri-CPJ (+ Few-shot) 2026.04		49
Qwen-VL-Chat (7B) 2026.01		46.5
Agri-CPJ (+ Caption (Optimized)) 2026.04		46.5
Qwen2.5-VL-3B-Instruct 2026.01		45.5
Agri-CPJ (+ Caption (Optimized)) 2026.04		44
Zero-shot (Our Baseline) 2026.04		41.5
Qwen-VL-Chat (7B) 2026.01		41
Zero-shot (Liu et al., 2024) Baseline 2026.04		41
Qwen2.5-VL-3B-Instruct 2026.01		27.5