Share your thoughts, 1 month free Claude Pro on usSee more

Confidence Estimation (Freeform Tagging) on WildHallu

4.1Brier Score (BS)

LOVEC-DPO

Updated 2mo ago

Evaluation Results

Method	Links
LOVEC-DPO 2025.05		4.1	1.3	51.8
LOVEC-GRPO 2025.05		6	8.2	63.1
LOVEC-DPO 2025.05		6.3	5.4	62.1
LOVEC-GRPO 2025.05		7.3	5.6	52.2
LOVEC-SFT 2025.05		8	12.2	36.1
LOVEC-SFT 2025.05		8.9	15.1	58.8
luq 2025.05		11.9	16.3	50
Self-Cons 2025.05		13.4	17.7	43.2
Verb-Conf 2025.05		18.5	19.2	35.1
p(true) 2025.05		19.3	22.8	25.4
Vanilla 2025.05		22.5	26.3	28.9