Tokenization

Benchmarks

Dataset Name	SOTA Method	Metric
WikiText-103		Latency (ms)1.92	25	4mo ago
TWEEBANK V2 (test)	Stanza	F1 Score98.64	14	4mo ago
Urdu urd		NSL Score4.25	10	4mo ago
Telugu (te)	LLaMA-3.2-1B	NSL Score3.01	10	4mo ago
Tamil ta	LLaMA-3.2-1B	NSL Score2.11	10	4mo ago
Sindhi snd		NSL Score3.63	10	4mo ago
Santali (sat)		NSL Score1.45	10	4mo ago
Sanskrit san	Qwen-3	NSL Score1.92	10	4mo ago
Punjabi (pa)	LLaMA-3.2-1B	NSL Score2.45	10	4mo ago
Odia (or)		NSL Score1.57	10	4mo ago
Nepali nep	Qwen-3	NSL Score2.47	10	4mo ago
Marathi (mr)	Qwen-3	NSL Score2.35	10	4mo ago
Manipuri mni		NSL Score2.19	10	4mo ago
Malayalam ml	LLaMA-3.2-1B	NSL Score3.25	10	4mo ago
Maithili mai	Qwen-3	NSL Score1.97	10	4mo ago
Kannada kn	LLaMA-3.2-1B	NSL Score3.3	10	4mo ago
Kashmiri kas	Qwen-3	NSL Score2.16	10	4mo ago
Hindi hi	Qwen-3	NSL Score2.65	10	4mo ago
Gujarati (gu)	LLaMA-3.2-1B	NSL Score2.91	10	4mo ago
Konkani gom	Qwen-3	NSL Score1.72	10	4mo ago
English eng		NSL Score1.27	10	4mo ago
Dogri doi	Qwen-3	NSL Score1.85	10	4mo ago
Programming Code	Sutra	NSL Score2.09	10	4mo ago
Bodo (brx)	Qwen-3	NSL Score1.78	10	4mo ago
Bengali bn	LLaMA-3.2-1B	NSL Score2.71	10	4mo ago

Showing 25 of 52 rows