Human Evaluation Study

Benchmarks

Task Name	Dataset Name	SOTA Result
Aesthetics	Human Evaluation Study	Average Rating Score3.664	8
Multi-event Video Generation	Human Evaluation Study	Omission Score4.31	7
Image-to-Video Generation	Human Evaluation Study	Human Preference (%)84	6
3D Scene Editing Evaluation	Human Evaluation Study	Satisfaction Score4.5	4
3D Indoor Scene Synthesis	Human Evaluation Study Generated 3D Scenes	Overall Score2.506	4
Text-to-Video Generation	Human Evaluation Study	Human Preference81	4
Counter-Speech Effectiveness Evaluation	Human Evaluation Study Counter-Speech Post-Edited	FACT3.458	3
Video Generation	Human Evaluation Study Aggregated across video generation categories	Validity Rate69	3
Social Deduction Game Agent Evaluation	Human Evaluation Study (Good Players)	Contributed Success3.9	2

Showing 9 of 9 rows