Multimodal Large Language Model Evaluation on MLLM Evaluation Suite

56.7Average Score (All)

SigLIP 2 (giant) + PIVOT

Updated 3mo ago

Evaluation Results

Method
SigLIP 2 (giant) + PIVOT 2025.10	56.7	68.5	54.7	54.2	49.3
SigLIP 2 + PIVOT 2025.10	55.6	68.1	53.9	52.4	48.1
SigLIP 2 (giant) + SFT 2025.10	55.4	67.4	52.8	53.1	48.5
SigLIP 2 + SFT 2025.10	54.6	66.9	52.2	51.7	47.7
SigLIP 2 (giant) 2025.10	53.9	66.5	50.8	51.9	46.4
SigLIP 1-So400m_PIVOT + ConvNeXt-XXL 2025.10	53.6	67.3	48.5	52.5	46
SigLIP 1 + PIVOT 2025.10	53.2	67.7	46.8	51.7	46.6
SigLIP 2 2025.10	52.4	66.2	46.6	50.6	46.1
SigLIP 1 + SFT 2025.10	52.2	66.5	45.2	50.8	46.3
SigLIP 1-So400m + ConvNeXt-XXL 2025.10	51.4	65.9	44.6	49.1	45.9
SigLIP 1 2025.10	50.9	65.4	42.3	49.8	46
CLIP + PIVOT 2025.10	49.5	64.6	37.8	48.6	47.1
SigLIP 1-So400m + DINOv2-L 2025.10	49.4	64.5	41.5	46.5	45.1
CLIP 2025.10	46.3	62.1	35.1	43	45
DINOv2 + PIVOT 2025.10	43.6	62.1	18.7	49.2	44.3
DINOv2 2025.10	40.9	58.4	17.6	45.1	42.6
MAE + PIVOT 2025.10	39.7	52.5	18.2	43.3	44.6
ImageNetSup + PIVOT 2025.10	37.7	47.3	18.1	40.3	45.1
MOCO + PIVOT 2025.10	37.5	47.4	17.6	41	44.1
MAE 2025.10	36.8	47.6	17.3	40.2	42
ImageNetSup 2025.10	35.5	44.6	17.2	38.2	42.1
MOCO 2025.10	35.3	42.5	17.1	39.6	42.1