Multi-turn dialogue

Benchmarks

Dataset Name	SOTA Method	Metric
MT-Bench	Qwen3-Omni-30B-A3B-Thinking	MT-Bench Score76.19	126	2mo ago
MT-Bench	DOUBLE	Speedup4.1	80	3mo ago
MT-bench	CORAL	Kendall's Tau5.25	54	4mo ago
MT-Bench	EAGLE-3	Speedup3.22	44	1mo ago
MT-Bench	UAPO	GPT-4 Score8.9	34	2mo ago
MTBench101		Score9.03	33	4mo ago
MT-Bench	Graft	MAT Score6.93	30	2mo ago
ShareGPT, JDDC, and MedDG Aggregated		SRavg89.77	24	3mo ago
MedDG		Success Rate (SR)86.77	24	3mo ago
JDDC		Success Rate (SR)88.42	24	3mo ago
ShareGPT		Success Rate (SR)94.11	24	3mo ago
Spec-Bench Multi.	SpecBound	CR3.22	21	3mo ago
MT-Bench	PPOW	Acceptance Length (τ)5.78	20	2mo ago
MT-Bench	EVICT	Tokens/s270.96	20	2mo ago
TopDial		LLM-EVAL7.71	20	3mo ago
ConsistentChat	MDS	LLM-EVAL Score8.52	20	3mo ago
MT-Eval	MDS	LLM-EVAL Score8.16	20	3mo ago
MT-Bench	Llama 3.2-3B	Acceptance Length (τ)2.717	16	1mo ago
TSEData	ChatAD-Mistral-7B	Accuracy96.46	13	4mo ago
MT-Bench	BASTION	Speedup4.55	12	1mo ago
SpokenWoz	Gemini2.5-Flash	Joint Goal Accuracy (JGA)52.09	11	2mo ago
MT-Bench (MTB)		Speedup Factor2.53	8	4mo ago
NPC-Chat (test)	AT-GRPO	Fluency3.84	8	4mo ago
ACEBench En		MT Accuracy68	7	4mo ago
Honor-Dialogue	DVPO	Life Services Domain Performance88.13	6	4mo ago

Showing 25 of 30 rows