Reinforcement Learning Improves LLM Accuracy and Reasoning in Disease Classification from Radiology Reports

About

Accurate disease classification from radiology reports is essential for many applications. While supervised fine-tuning (SFT) of lightweight LLMs improves accuracy, it can degrade reasoning. We propose a two-stage approach: SFT on disease labels followed by Group Relative Policy Optimization (GRPO) to refine predictions by optimizing accuracy and format without reasoning supervision. Across three radiologist-annotated datasets, SFT outperformed baselines and GRPO further improved classification and enhanced reasoning recall and comprehensiveness.

Yishu Wei, Yi Lin, Adam Flanders, George Shih, Yifan Peng• 2026

Related benchmarks

Task	Dataset	Result
Medical Report Classification	MIMIC	Micro Precision88.2	17
Medical Report Classification	NIH-CXR	Micro Precision94	17
Medical Report Classification	MIDRC	Micro Precision98.1	17

Showing 3 of 3 rows

Other info

Follow for update

@wizwand_team Discord