Response Generation

Benchmarks

Dataset Name	SOTA Method	Metric
Chronicle and MSC Average	EventWeave	CEA70.3	30	3mo ago
MultiWOZ (test)	T5-Base	BLEU Score35.1	27	4mo ago
UltraFeedback (val)	RPO	BERTScore88.1	24	1mo ago
ReDial	KERL	Distinct-31.43	17	4mo ago
HiCUPID	DeepSeek-R1-671B	Accuracy63.9	16	4mo ago
Ubuntu IRC	Qwen3-8B+DRCR	BLEU-117.81	16	3mo ago
Vicuna 80 prompts (test)	GPT-4	Elo1,348	16	4mo ago
DailyDialog (test)	Hier	BLEU-235.4	16	4mo ago
SCREEN (test)	SiPeR	BLEU-149.5	13	3mo ago
SIMMC 2.1 (test)	SiPeR	BLEU-133.77	13	3mo ago
HH dataset	Alpaca	Reward-0.96	13	4mo ago
ESConv (test)	FiSMiness	Fluency3.9	10	2mo ago
Reddit multi-reference 6K (test)	DialoFlow	NIST-23.9	9	4mo ago
IEMOCAP	Self-EmoQ	BLEU-220.1	8	1mo ago
MELD	Self-EmoQ	BLEU-23.89	8	1mo ago
EmoryNLP	Self-EmoQ	BLEU-24.39	8	1mo ago
EMPATHETICDIALOGUES (test)	CASE	PPL35.37	8	4mo ago
DSTC7 Shared Task (test)	UNILM	NIST-42.669	8	4mo ago
DecTest resp_gen no_hds (1000 samples)	a_n	Spearman ρ0.924	7	1mo ago
CS Resp. (test)		BS72.4	7	2mo ago
Open Assistant 953 prompts (test)	GPT-4	Elo Rating1,294	7	4mo ago
BusinessAI	RAGen	ROUGE-L36.82	6	3mo ago
TradePolicy	RAGen	ROUGE-L39.11	6	3mo ago
PPFS	RAGen	ROUGE-L39.55	6	3mo ago
Dialogue dataset		Coherence3.67	6	3mo ago

Showing 25 of 49 rows