Proposed LLM-based evaluation benchmark

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Open-ended question answering	Proposed LLM-based evaluation benchmark OEQ	Completeness96.9		9

Showing 1 of 1 rows