LIME: Making LLM Data More Efficient with Linguistic Metadata Embeddings

About

Pre-training decoder-only language models relies on vast amounts of high-quality data, yet the availability of such data is increasingly reaching its limits. While metadata is commonly used to create and curate these datasets, its potential as a direct training signal remains under-explored. We challenge this status quo and propose LIME (Linguistic Metadata Embeddings), a method that enriches token embeddings with metadata capturing syntax, semantics, and contextual properties. LIME substantially improves pre-training efficiency. Specifically, it adapts up to 56% faster to the training data distribution, while introducing only 0.01% additional parameters at negligible compute overhead. Beyond efficiency, LIME improves tokenization, leading to remarkably stronger language modeling capabilities and generative task performance. These benefits persist across model scales (500M to 2B). In addition, we develop a variant with shifted metadata, LIME+1, that can guide token generation. Given prior metadata for the next token, LIME+1 improves reasoning performance by up to 38% and arithmetic accuracy by up to 35%.

Sebastian Sztwiertnia, Felix Friedrich, Kristian Kersting, Patrick Schramowski, Bj\"orn Deiseroth• 2025

Related benchmarks

Task	Dataset	Result
Commonsense Reasoning	HellaSwag	Accuracy43.1	1896
Commonsense Reasoning	WinoGrande	Accuracy54.6	1442
Commonsense Reasoning	PIQA	Accuracy69.4	757
Language Modeling	LAMBADA	Accuracy49	412
Question Answering	ARC Easy	Normalized Acc58.1	391
Question Answering	BoolQ	Accuracy59.4	317
Common Sense Reasoning	COPA	Accuracy64	256
Question Answering	TriviaQA	Accuracy19.5	117
Reasoning	FLenQA 250 tokens	Accuracy80	15
Reasoning	FLenQA 500 tokens	Accuracy74	15

Showing 10 of 17 rows

Other info

Follow for update

@wizwand_team Discord