BiMediX2: Bio-Medical EXpert LMM for Diverse Medical Modalities

About

We introduce BiMediX2, a bilingual (Arabic-English) Bio-Medical EXpert Large Multimodal Model that supports text-based and image-based medical interactions. It enables multi-turn conversation in Arabic and English and supports diverse medical imaging modalities, including radiology, CT, and histology. To train BiMediX2, we curate BiMed-V, an extensive Arabic-English bilingual healthcare dataset consisting of 1.6M samples of diverse medical interactions. This dataset supports a range of medical Large Language Model (LLM) and Large Multimodal Model (LMM) tasks, including multi-turn medical conversations, report generation, and visual question answering (VQA). We also introduce BiMed-MBench, the first Arabic-English medical LMM evaluation benchmark, verified by medical experts. BiMediX2 demonstrates excellent performance across multiple medical LLM and LMM benchmarks, achieving state-of-the-art results compared to other open-sourced models. On BiMed-MBench, BiMediX2 outperforms existing methods by over 9% in English and more than 20% in Arabic evaluations. Additionally, it surpasses GPT-4 by approximately 9% in UPHILL factual accuracy evaluations and excels in various medical VQA, report generation, and report summarization tasks. Our trained models, instruction set, and source code are available at https://github.com/mbzuai-oryx/BiMediX2

Sahal Shaji Mullappilly, Mohammed Irfan Kurpath, Sara Pieri, Saeed Yahya Alseiari, Shanavas Cholakkal, Khaled Aldahmani, Fahad Khan, Rao Anwer, Salman Khan, Timothy Baldwin, Hisham Cholakkal• 2024

Related benchmarks

Task	Dataset	Result
Medical Visual Question Answering	Slake	Accuracy57.7	247
Medical Visual Question Answering	VQA-RAD	Accuracy49.2	228
Medical Visual Question Answering	PMC-VQA	Accuracy43.5	103
Medical Visual Question Answering	PathVQA	Accuracy37	80
Medical Visual Question Answering	SLAKE (test)	Closed Accuracy83.1	67
Medical Visual Question Answering	OmniMedVQA	Accuracy63.3	48
Radiology Report Generation	CHEXPERT Plus	--	37
Multimodal Medical Understanding	MMMU	Accuracy39.8	15
Medical Image Quality Description Evaluation	Med-IQA 1.0 (test)	Completeness0.458	14
Radiology Report Generation	MIMIC-CXR	RaTE44.4	13

Showing 10 of 16 rows

Other info

Follow for update

@wizwand_team Discord