MergeBench

Benchmarks

Task Name	Dataset Name	SOTA Result
Multi-task Language Modeling	MergeBench	Instruction Score39.56	21
Model Merging Evaluation	MergeBench	MATH-500 Score52.6	12
Generative Language Model Merging	MergeBench Expert models Llama-3.2-3B (test)	Instruction Score53.52	11
Multi-task Language Understanding	MergeBench Llama-3.2-3B (test)	Average Score44.1	11
Vision-Language Multi-task Performance	MergeBench (Vision-Language tasks: MMSI-Bench, EmbSpatial, MMMU_Med, PathVQA, OCRBench, CharXiv)	MMSI-Bench32.6	11

Showing 5 of 5 rows