Share your thoughts, 1 month free Claude Pro on usSee more

SQL Agent data leakage evaluation on Employee Toy

100BA (Benign Accuracy)

gpt-4.1-mini

Updated 5mo ago

Evaluation Results

Method	Links
gpt-4.1-mini 2026.02		100	84	6
gpt-4.1 2026.02		100	75.8	23
o4-mini 2026.02		100	90.6	500
claude-sonnet-4 2026.02		100	93.6	-
gemini-2.5-flash 2026.02		100	75.4	17
gpt-4.1-mini 2026.02		100	87.2	7
gpt-4.1 2026.02		100	77.8	42
o4-mini 2026.02		100	90.4	-
claude-sonnet-4 2026.02		100	95.4	-
gemini-2.5-flash 2026.02		100	76.4	18