BEAF

Benchmarks

Task Name	Dataset Name	SOTA Result	Trend
Vision-Language Reasoning	BEAF (test)	Simple Accuracy88.4		7
Paired-prompt evaluation	BEAF (sample)	Simple Accuracy90.67		2

Showing 2 of 2 rows