LoopRPT: Reinforcement Pre-Training for Looped Language Models

About

Looped language models (LoopLMs) perform iterative latent computation to refine internal representations, offering a promising alternative to explicit chain-of-thought (CoT) reasoning. However, existing reinforcement learning (RL) paradigms primarily target output tokens, creating a structural mismatch with looped architectures whose reasoning unfolds implicitly. In this work, we propose LoopRPT, a reinforcement pre-training framework tailored for LoopLMs. By reframing next-token prediction as a next-token reasoning task, LoopRPT assigns reinforcement signals directly to latent steps using an EMA teacher reference and noisy latent rollouts. This formulation enables RL to directly shape intermediate representations, compressing effective reasoning into fewer iterations. We instantiate LoopRPT on the Ouro architecture across multiple model scales. Results demonstrate that LoopRPT consistently improves per-step representation quality, achieving Pareto dominance in accuracy-computation trade-offs. Notably, significant gains on hard tokens indicate that LoopRPT enhances early-stage reasoning rather than merely encouraging premature exits. Our findings highlight reinforcement pre-training as a principled paradigm for learning efficient latent reasoning in LoopLMs.

Guo Tang, Shixin Jiang, Heng Chang, Nuo Chen, Yuhan Li, Huiming Fan, Jia Li, Ming Liu, Bing Qin• 2026

Related benchmarks

Task	Dataset	Result
Commonsense Reasoning	HellaSwag	Accuracy80.03	1896
Code Generation	HumanEval	--	1043
Language Understanding	MMLU	Accuracy73.91	844
Reasoning	BBH	Accuracy78.24	726
Commonsense Reasoning	WinoGrande	Accuracy76.47	453
Code Generation	HumanEval+	--	393
Language Understanding	MMLU-Pro	Accuracy54.19	116
Code Generation	MBPP	Accuracy77.24	89
Question Answering	ARC-C	Accuracy (ARC-C)66.89	46
Code Generation	MBPP+	Accuracy65.08	29

Showing 10 of 13 rows

Other info

Follow for update

@wizwand_team Discord