Dialogue Generation

Benchmarks

Dataset Name	SOTA Method	Metric
CONVAI2	SMoA	BLEU3.77	48	2mo ago
UltraChat		ASR Accuracy98.7	32	2mo ago
PersonaChat (test)	LMEDR	Persona Consistency2.31	27	1mo ago
DailyDialog	BART joint† (D)	Distinct-19.12	26	4mo ago
Douban (test)	Ours	BLEU-10.1398	20	4mo ago
ConvAI2 (test)	TeRA	BLEU3.38	20	3mo ago
Wizard of Wikipedia (WoW) (dev)	KID	F1 Score16.4	19	4mo ago
Proposed Multi-scenario Dataset 1.0 (test)	SGM	Acc T86.37	18	4mo ago
Vicuna	XPERT-OLMoE	Rouge-L15.05	16	2mo ago
SelfInst	XPERT-OLMoE	Rouge-L11.31	16	2mo ago
UnNI	XPERT-DeepSeek	Rouge-L23.2	16	2mo ago
S-NI	XPERT-OLMoE	Rouge-L19.82	16	2mo ago
DollyEval	XPERT-OLMoE	ROUGE-L24.19	16	2mo ago
Anthropic-HH (test)	Cal-DPO	Average Preference Score69.07	16	4mo ago
DailyDialog Multi-reference	DialoGPS	BLEU-138.46	16	4mo ago
TG-ReDial	TREA	BLEU-25	16	4mo ago
4 dialogue datasets Aggregate (test val)	OPT	Dialogue Avg F112.9	15	4mo ago
Cognitive stimulation real 1.0 (test)	GCSD-3b	ROUGE-L27.63	13	4mo ago
CausalDialogue (test)		PPL1.2	13	4mo ago
CMU-DoG (test)	CKL	BLEU-117.74	13	4mo ago
Wizard of Wikipedia (WoW) seen (test)	CKL	BLEU-127.29	13	4mo ago
Reddit Conversation Corpus (test)	DialoGPT	PPL36.03	13	4mo ago
PERSONA-CHAT Original (dev)	LMEDR	Hits@189.5	13	4mo ago
PERSUASIVETOM	COSTOM	ToM Score (Judge: Llama-3.3-70B)80.2	12	3mo ago
NEGOTIATIONTOM N=100	COSTOM	ToM (Llama-3.3-70B)0.751	12	3mo ago

Showing 25 of 88 rows