Share your thoughts, 1 month free Claude Pro on usSee more

Bayesian Assessment of Sycophancy on BASIL Abstract setting 1.0 (test)

0.197Bayesian Error (RMSE)

gpt-4o-mini

Updated 3mo ago

Evaluation Results

Method	Links
gpt-4o-mini 2025.08		0.197
claude-haiku-4-5 2025.08		0.244
gpt-4o-mini 2025.08		0.251
phi-4:14b 2025.08		0.257
phi-4:14b 2025.08		0.268
claude-haiku-4-5 2025.08		0.269
llama-3.2:3b 2025.08		0.279
llama-3.2:3b 2025.08		0.293
llama-3.2:3b 2025.08		0.303
llama-3.2:1b 2025.08		0.307
llama-3.2:1b 2025.08		0.31
mistral:7b 2025.08		0.382
llama-3.2:1b 2025.08		0.419
gpt-4o-mini 2025.08		0.42
mistral:7b 2025.08		0.454
claude-haiku-4-5 2025.08		0.498
phi-4:14b 2025.08		0.512
mistral:7b 2025.08		0.531