Rethinking Data Curation in LLM Training: Online Reweighting Offers Better Generalization than Offline Methods

About

Data curation is a critical yet under-explored area in large language model (LLM) training. Existing methods, such as data selection and mixing, operate in an offline paradigm, detaching themselves from training. This separation introduces engineering overhead and makes the curation brittle: the entire pipeline must be re-run under model/task shifts. Moreover, offline methods alter data size through hard filtering or resampling, often sacrificing data diversity and harming generalization. We propose to rethink data curation as an online reweighting problem, where sample importance is dynamically adjusted during training via loss weighting rather than static pre-processing. Specifically, we introduce ADAPT (Adaptive Data reweighting for Pretraining and FineTuning), a dynamic online framework that reweights training samples with adaptive per-sample learning rates guided by similarity-based quality signals, without changing the number of training samples. Unlike offline methods that enforce a static data distribution, ADAPT acts as an implicit curriculum learner, progressively shifting focus from coarse-grained patterns to fine-grained semantic distinctions as the model evolves. Experiments on both instruction tuning and large-scale pretraining show that ADAPT consistently outperforms offline selection/mixing and prior online methods, achieving stronger cross-benchmark generalization under equal FLOPs.

Wanru Zhao, Yihong Chen, Yuzhi Tang, Wentao Ma, Shengchao Hu, Shell Xu Hu, Alex Iacob, Abhinav Mehrotra, Nicholas D. Lane• 2026

Related benchmarks

Task	Dataset	Result
Commonsense Reasoning	WinoGrande	Accuracy50.99	1581
Question Answering	ARC-E	Accuracy39.44	544
Commonsense Reasoning	PIQA	Accuracy61.48	400
Question Answering	OpenBookQA	Accuracy15.4	319
Common Sense Reasoning	COPA	Accuracy64	288
Question Answering	ARC-C	Accuracy19.11	283
Logical reasoning	LogiQA	LogiQA Accuracy21.66	251
Commonsense Reasoning	SocialIQA	Accuracy37.05	164
Reading Comprehension	MultiRC	MultiRC Accuracy56.53	32
Reading Comprehension	RACE	Score27.39	15

Showing 10 of 13 rows

Other info

Follow for update

@wizwand_team Discord