SOTA Long-form generation benchmarks and papers with code

Benchmarks

Dataset Name	SOTA Method	Metric
Bio		LLM-Judge Score81	59	3mo ago
Long-form generation ID	HUQ-SATRMD	PRR0.38	38	3mo ago
Alpaca	I-GLASS	Perplexity (PPL)2.4268	30	2mo ago
1D-DiffTask most OOD	SATMD-MSP	PRR0.24	24	3mo ago
DiffTask OOD	HUQ-SATRMD	PRR0.16	24	3mo ago
Long-form generation datasets 1D-SameTask - OOD	SATMD-MSP	PRR0.16	24	3mo ago
Long-form generation datasets LOO - near OOD	HUQ-SATRMD	PRR0.3	24	3mo ago
LongGenBench		CR80.03	24	4mo ago
LongBench Write-en	IS-Writer-8B	Sequence Length Success Rate88.31	21	1mo ago
WritingBench length-constrained	DeepSeek-V3.2-671B	L_R Score8.6	14	1mo ago
1D-DiffTask	SATMD-MSP	PRR0.24	14	3mo ago
DiffTask	HUQ-SATRMD	PRR0.16	14	3mo ago
Long-form generation 1D-SameTask	SATMD-MSP	PRR0.16	14	3mo ago
Long-form generation LOO	HUQ-SATRMD	PRR0.3	14	3mo ago
PopQA (test)	SeSE	AUROC0.8588	12	1mo ago
FActScore (test)	SeSE	AUROC0.8581	12	1mo ago
MIA	Qwen2.5	Score84.6	8	2mo ago
DetailCaps 100 sampled instances	InternVL3	Score64.4	8	2mo ago
LLaVA-Bench	Qwen2.5	Score96.6	8	2mo ago
Bio	Decoding_c	PIA RLLMJ Score69.8	6	3mo ago
WritingBench		Score5.1	6	3mo ago
FreshWiki	Agentic Reasoning	ROUGE-154.1	6	4mo ago
FactScore 200-word response length constraint		Response Coverage (%)98.9	5	1mo ago
LongFact		Response Rate100	4	1mo ago
LongWriter-Bench	Elastic-dLLM	Success Rate (Sl) [0, 500)94.9	4	2mo ago

Showing 25 of 25 rows