evaluation prompts

Benchmarks

Task Name	Dataset Name	SOTA Result
Multi-shot Video Generation	20 evaluation prompts 1.0 (User Study)	Temporal Consistency Score4.15	7
Text-to-score generation	238 evaluation prompts	Prompt Adherence3.48	3
Language Modeling	Evaluation Prompts	Perplexity (Evaluation Prompts)21.45	3

Showing 3 of 3 rows