Share your thoughts, 1 month free Claude Pro on usSee more
WorkDL logo mark

Sycophancy Assessment on BASIL Over-Update 1.0

0.016Change in Bayesian Error (RMSE)

claude-haiku-4-5

0.006360.071430.13650.20157Aug 23, 2025
Updated 1mo ago

Evaluation Results

MethodLinks
2025.08
0.016
2025.08
0.021
2025.08
0.024
2025.08
0.025
2025.08
0.032
2025.08
0.037
2025.08
0.041
2025.08
0.052
2025.08
0.061
2025.08
0.068
2025.08
0.068
2025.08
0.072
2025.08
0.077
2025.08
0.078
2025.08
0.079
2025.08
0.081
2025.08
0.086
2025.08
0.087
2025.08
0.094
2025.08
0.097
2025.08
0.108
2025.08
0.112
2025.08
0.124
2025.08
0.132
2025.08
0.135
2025.08
0.14
2025.08
0.142
2025.08
0.147
2025.08
0.191
2025.08
0.213
2025.08
0.216
2025.08
0.257