Share your thoughts, 1 month free Claude Pro on usSee more

Multi-modal Hallucination Evaluation on AMBER

9.2CHAIR

Zero-shot

Updated 1mo ago

Evaluation Results

Method
Zero-shot 2026.05	9.2	-	38.8	-	-	-	-	-	-	-	-
DoLa 2026.05	7.6	-	36	51.6	4	-	-	-	-	-	-
Baseline 2026.05	7.3	-	33.7	50.7	3.8	-	-	-	-	-	-
OPERA 2026.05	7.3	-	32	49.6	3.5	-	-	-	-	-	-
VCD 2026.05	7.2	-	33.33	-	-	-	-	-	-	-	-
DMAS 2026.05	7.1	-	33.5	-	-	-	-	-	-	-	-
VISTA 2026.05	6.9	-	31.94	-	-	-	-	-	-	-	-
VCD 2026.05	6.8	-	30.4	49.6	3.5	-	-	-	-	-	-
Training-Free Debiasing Inference Strategy 2026.05	6.74	-	29.87	-	-	-	-	-	-	-	-
MaskCD 2026.05	6.6	-	31.6	52.4	3	-	-	-	-	-	-
SID 2026.05	6.24	-	33.73	-	-	-	-	-	-	-	-
SID 2026.05	6.1	-	27.5	50.2	2.8	-	-	-	-	-	-
DoLa 2026.05	5.5	-	25.1	46.8	2.2	-	-	-	-	-	-
Baseline 2026.05	5.3	-	23.6	47.2	1.9	-	-	-	-	-	-
ICT 2026.05	5.2	-	23.1	51.3	2.1	-	-	-	-	-	-
Zero-shot 2026.05	5.14	-	28.62	-	-	-	-	-	-	-	-
OPERA 2026.05	5.1	-	21.6	46.2	1.7	-	-	-	-	-	-
SID 2026.05	4.9	-	21.5	46.3	1.4	-	-	-	-	-	-
ICT 2026.05	4.9	-	21.8	45.1	1.2	-	-	-	-	-	-
MaskCD 2026.05	4.8	-	22	47.4	1.5	-	-	-	-	-	-
SIRA 2026.05	4.8	-	21.6	53.7	1.8	-	-	-	-	-	-
VCD 2026.05	4.72	-	26.35	-	-	-	-	-	-	-	-
VCD 2026.05	4.7	-	20.5	45.9	1.6	-	-	-	-	-	-
SIRA 2026.05	4.6	-	20.2	47.8	0.9	-	-	-	-	-	-
SID 2026.05	4.58	-	25.9	-	-	-	-	-	-	-	-
VISTA 2026.05	4.46	-	25.79	-	-	-	-	-	-	-	-
DMAS 2026.05	4.4	-	25.6	-	-	-	-	-	-	-	-
Training-Free Debiasing Inference Strategy 2026.05	4.23	-	25.07	-	-	-	-	-	-	-	-
Baseline 2025.10	-	68.7	-	-	-	-	-	-	-	-	-
Method ① 2025.10	-	70.4	-	-	-	-	-	-	-	-	-
Method ② 2025.10	-	64.5	-	-	-	-	-	-	-	-	-
Method ③ 2025.10	-	53.5	-	-	-	-	-	-	-	-	-
Method ④ 2025.10	-	67.8	-	-	-	-	-	-	-	-	-
TTAug 2025.10	-	75.4	-	-	-	-	-	-	-	-	-
Baseline 2025.10	-	68.7	-	-	-	-	-	-	-	-	-
TTAug 2025.10	-	75.9	-	-	-	-	-	-	-	-	-
(1) 2025.10	-	76.9	-	-	-	-	-	-	-	-	-
(2) 2025.10	-	72.8	-	-	-	-	-	-	-	-	-
Idefics2 2026.03	-	86.4	-	-	-	-	-	-	-	-	-
Idefics3 2026.03	-	84.09	-	-	-	-	-	-	-	-	-
LLaVA-OV 2026.03	-	83.99	-	-	-	-	-	-	-	-	-
LLaVA-Next 2026.03	-	84.96	-	-	-	-	-	-	-	-	-
InternVL2 2026.03	-	86	-	-	-	-	-	-	-	-	-
Qwen2VL 2026.03	-	85.96	-	-	-	-	-	-	-	-	-
Qwen2.5-VL 2026.03	-	85.13	-	-	-	-	-	-	-	-	-
CAPL 2026.03	-	85.25	-	-	-	-	-	-	-	-	-
InternVL2.5 2026.03	-	88.99	-	-	-	-	-	-	-	-	-
CAPL 2026.03	-	89.79	-	-	-	-	-	-	-	-	-
GLM4.1VBase 2026.03	-	89.2	-	-	-	-	-	-	-	-	-
CAPL 2026.03	-	88.49	-	-	-	-	-	-	-	-	-
LLaVA-NeXT-Interleave-Qwen-7B 2026.05	-	-	-	-	-	79.97	89.03	74.51	-	-	-
DPO 2026.05	-	-	-	-	-	76.92	86.11	78.71	-	-	-
mDPO 2026.05	-	-	-	-	-	80.27	88.36	77.16	-	-	-
V-DPO 2026.05	-	-	-	-	-	76.48	86.21	78.47	-	-	-
S-VCO 2026.05	-	-	-	-	-	77.88	86.17	79.21	-	-	-
SymMPO 2026.05	-	-	-	-	-	80.41	88.63	76.54	-	-	-
IC-VCO 2026.05	-	-	-	-	-	81.81	90.48	75.56	-	-	-
DPO 2026.05	-	-	-	-	-	78.16	92.47	76.2	-	-	-
mDPO 2026.05	-	-	-	-	-	80.31	92.55	74.64	-	-	-
V-DPO 2026.05	-	-	-	-	-	77.77	91.98	76.5	-	-	-
S-VCO 2026.05	-	-	-	-	-	79.72	91.41	79.15	-	-	-
SymMPO 2026.05	-	-	-	-	-	80.39	92.89	74.52	-	-	-
IC-VCO 2026.05	-	-	-	-	-	82.24	92.73	70.47	-	-	-
LLaVA-OneVision-Qwen2-7B 2026.05	-	-	-	-	-	84.05	91.67	75.98	-	-	-
DPO 2026.05	-	-	-	-	-	87.98	92.37	82.85	-	-	-
mDPO 2026.05	-	-	-	-	-	87.12	95.68	74.8	-	-	-
V-DPO 2026.05	-	-	-	-	-	88.01	92.02	83.69	-	-	-
S-VCO 2026.05	-	-	-	-	-	88.04	92.94	81.71	-	-	-
SymMPO 2026.05	-	-	-	-	-	87.21	95.82	75.46	-	-	-
IC-VCO 2026.05	-	-	-	-	-	88.06	95.98	73.2	-	-	-
DPO 2026.05	-	-	-	-	-	86.01	94.24	80.99	-	-	-
mDPO 2026.05	-	-	-	-	-	86.11	96.28	76.39	-	-	-
V-DPO 2026.05	-	-	-	-	-	86.42	94.65	81.56	-	-	-
S-VCO 2026.05	-	-	-	-	-	86.36	95.36	79.1	-	-	-
SymMPO 2026.05	-	-	-	-	-	86.06	96.24	76.03	-	-	-
IC-VCO 2026.05	-	-	-	-	-	88	97.12	73.96	-	-	-
LLaVA-1.5-7B 2026.06	-	-	-	-	-	75.8	-	68.4	73.9	78.2	81.1
LLaVA-1.5-7B 2026.06	-	-	-	-	-	76.5	-	69.3	74.8	78.2	81.7