Share your thoughts, 1 month free Claude Pro on usSee more

Temporal Grounding (Human Vocalization) on Audioset

6.6Acc (40ms)

Gemini 2.5 Flash

Updated 4mo ago

Evaluation Results

Method	Links
Gemini 2.5 Flash 2026.02		6.6	12.7	2.3
Audio Flamingo 3 2026.02		5.8	10.2	1.69
Qwen2.5 7B 2026.02		3.9	5.7	3.52
Qwen2.5 3B 2026.02		3.6	4.5	4.46
Voxtral 24B 2026.02		2.3	4.2	4.03
GPT-4o Audio 2026.02		1.9	2.8	3.8
Voxtral 3B 2026.02		1.2	2.2	3.74