D-GEN: Automatic Distractor Generation and Evaluation for Reliable Assessment of Generative Model

About

Evaluating generative models with open-ended generation is challenging due to inconsistencies in response formats. Multiple-choice (MC) evaluation mitigates this issue, but generating high-quality distractors is time-consuming and labor-intensive. We introduce D-GEN, the first open-source distractor generator model that transforms open-ended data into an MC format. To evaluate distractor quality, we propose two novel methods: (1) ranking alignment, ensuring generated distractors retain the discriminatory power of ground-truth distractors, and (2) entropy analysis, comparing model confidence distributions. Our results show that D-GEN preserves ranking consistency (Spearman's rho 0.99, Kendall's tau 0.94) and closely matches the entropy distribution of ground-truth distractors. Human evaluation further confirms the fluency, coherence, distractiveness, and incorrectness. Our work advances robust and efficient distractor generation with automated evaluation, setting a new standard for MC evaluation.

Grace Byun, Jinho D. Choi• 2025

Related benchmarks

Task	Dataset	Result
Group-level distractor generation	Discrete Math 40	Recall28.57	8
Group-level distractor generation	CEval Discrete Math	Recall28.89	8
Group-level distractor generation	Eedi Elementary Math 100	Recall20.48	8
Group-level distractor generation	MMLU Elementary Math	Recall18.28	8
Distractor Generation	D-GEN	Fluency4.98	1
Distractor Generation	D-GEN Commonsense Reasoning	Fluency4.97	1
Distractor Generation	D-GEN RC + CS	Fluency4.99	1
Distractor Generation	D-GEN Translation	Fluency4.91	1
Distractor Generation	D-GEN Summarization	Fluency4.96	1
Distractor Generation	D-GEN Struct-to-Text	Fluency4.88	1

Showing 10 of 11 rows

Other info

Code

Follow for update

@wizwand_team Discord