Human Preference Evaluation

Benchmarks

Task Name	Dataset Name	SOTA Result
Code-switched text generation	English-to-Code-Switched human preference evaluation (Out of domain)	Score434.5	6
Image Generation	Human Preference Evaluation 55 prompts	Votes500	6
Exemplar-based Image Editing	Human Preference Evaluation	Preference Score (Baseline)19.27	4
Human Preference Evaluation	Human Preference Evaluation 371 prompts (test)	Recall @139.89	3
Human Preference Evaluation	Human Preference Evaluation 466 prompts (test)	Preference Accuracy65.14	3

Showing 5 of 5 rows