FLASK

Benchmarks

Task Name	Dataset Name	SOTA Result
LLM-as-a-judge evaluation	FLASK	Pearson's r0.589	36
Direct Assessment	Flask	Pearson Correlation Coefficient0.7203	12
Vulnerability Detection	FLASK	TP5	7
Evasion Detection	Flask positional attacks	Evasion Rate8.2	6
Evasion Detection	Flask gradual attacks	Evasion Rate44.1	6
Feedback Evaluation Alignment	FLASK	Kendall's Tau0.405	6
Feedback evaluation	FLASK (test)	Kendall's Tau0.385	5

Showing 7 of 7 rows