Share your thoughts, 1 month free Claude Pro on usSee more

Utility Evaluation on ScienceQA (S-QA)

73.2Accuracy

CMRM_dataset

Updated 4mo ago

Evaluation Results

Method	Links
CMRM_dataset 2024.10		73.2
LLaVA-v1.5-13B 2024.10		73.1
VLGuard Mixed 2024.10		72.84
CMRM_sample 2024.10		72.65
VLGuard PH 2024.10		72.15
VLGuard Mixed 2024.10		69.28
LLaVA-v1.5-7B 2024.10		68.03
VLGuard PH 2024.10		67.32
ShareGPT4V 2024.10		66.73
CMRM_sample 2024.10		66.14
CMRM_sample 2024.10		66.13
CMRM_dataset 2024.10		65.89
CMRM_dataset 2024.10		65.24