Share your thoughts, 1 month free Claude Pro on usSee more

Open-ended Question Answering on Proposed LLM-based evaluation benchmark OEQ

96.9Completeness

GPT-4o-Mini-Audio

Updated 4mo ago

Evaluation Results

Method	Links
GPT-4o-Mini-Audio 2025.12		96.9	49	98.1	68.4
GPT-4o-Audio 2025.12		96.8	47.4	97.2	67.2
Gemini-2.5-Flash 2025.12		89.1	45.2	88.9	62.7
Qwen2.5-Omni-7B 2025.12		77.8	62.2	76.9	68.3
Gemini-2.5-Pro 2025.12		77.7	28.4	76.9	48
SFT with MLLM-only data 2025.12		77.7	73.5	71.3	73.9
SFT with Hybrid data 2025.12		77	51.5	56.9	57.7
Qwen2-Audio-7B 2025.12		68.5	44.8	48.1	50.2
SFT with Human-only data 2025.12		55.9	24.7	57.4	37.5