BARREL: Boundary-Aware Reasoning for Factual and Reliable LRMs

About

Recent advances in Large Reasoning Models (LRMs) have shown impressive capabilities in mathematical and logical reasoning. However, current LRMs rarely admit ignorance or respond with "I don't know". Instead, they often produce incorrect answers while showing undue confidence, raising concerns about their factual reliability. In this work, we identify two pathological reasoning patterns characterized by overthinking that contribute to the overconfident and incorrect answers: last-minute guessing and second-thought spiraling. To address these issues, we propose BARREL-a novel framework that promotes concise and boundary-aware factual reasoning. Our experiments show that BARREL-training increases the reliability of DeepSeek-R1-Distill-Llama-8B from 39.33% to 61.48%, while still achieving accuracy comparable to models finetuned on reasoning data generated by R1. These results demonstrate that our pilot study is inspiring to build more reliable and factual System 2 LRMs.

Junxiao Yang, Jinzhe Tu, Haoran Liu, Xiaoce Wang, Chujie Zheng, Zhexin Zhang, Shiyao Cui, Caishun Chen, Tiantian He, Hongning Wang, Yew-Soon Ong, Minlie Huang• 2025

Related benchmarks

Task	Dataset	Result
Calibration	NQ	ECE0.561	55
Question Answering	PopQA	Score35	50
Calibration	WebQ	ECE41.43	31
Calibration	SQuAD	ECE65.13	31
Mathematical Reasoning	GSM8K	Accuracy21.08	29
Knowledge Grounded Dialogue	WoW	F1 Score15.94	15
Slot Filling	T-REx	Accuracy44.57	14
Fact Verification	FEVER	Accuracy72.2	11
Expected Calibration Error	SeaQA	ECE18.55	10
Expected Calibration Error	TriQA	Expected Calibration Error13.78	10

Showing 10 of 17 rows

Other info

Follow for update

@wizwand_team Discord