Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding

About

This paper presents Youtu-Parsing, an efficient and versatile document parsing model designed for high-performance content extraction. The architecture employs a native Vision Transformer (ViT) featuring a dynamic-resolution visual encoder to extract shared document features, coupled with a prompt-guided Youtu-LLM-2B language model for layout analysis and region-prompted decoding. Leveraging this decoupled and feature-reusable framework, we introduce a high-parallelism decoding strategy comprising two core components: token parallelism and query parallelism. The token parallelism strategy concurrently generates up to 64 candidate tokens per inference step, which are subsequently validated through a verification mechanism. This approach yields a 5--11x speedup over traditional autoregressive decoding and is particularly well-suited for highly structured scenarios, such as table recognition. To further exploit the advantages of region-prompted decoding, the query parallelism strategy enables simultaneous content prediction for multiple bounding boxes (up to five), providing an additional 2x acceleration while maintaining output quality equivalent to standard decoding. Youtu-Parsing encompasses a diverse range of document elements, including text, formulas, tables, charts, seals, and hierarchical structures. Furthermore, the model exhibits strong robustness when handling rare characters, multilingual text, and handwritten content. Extensive evaluations demonstrate that Youtu-Parsing achieves state-of-the-art (SOTA) performance on both the OmniDocBench and olmOCR-bench benchmarks. Overall, Youtu-Parsing demonstrates significant experimental value and practical utility for large-scale document intelligence applications.

Kun Yin, Yunfei Wu, Bing Liu, Zhongpeng Cai, Xiaotian Li, Huang Chen, Xin Li, Haoyu Cao, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Qianyu Li, Antai Guo, Yanzhen Liao, Yanqiu Qu, Haodong Lin, Chengxu He, Shuangyin Liu• 2026

Related benchmarks

Task	Dataset	Result
Document Parsing	OmniDocBench v1.5	Overall Score93.22	195
Document Parsing	OmniDocBench 1.5 (test)	Text Edit Error0.042	132
Document Parsing	olmOCR-bench	ArXiv Processing Accuracy83.7	59
Document Parsing	OmniDocBench Full v1.6	Overall Accuracy93.68	44
Table Recognition	CC-OCR Table Recognition	TEDS81.37	12
Table Recognition	OCRBench Table Recognition v2	TEDS72.55	12
Formula Recognition	OmniDocBench Formula v1.5	CDM92.3	11
Table Recognition	Inhouse Data	TEDS88.24	9
Page-level Layout Analysis	DocLayNet	Precision92.88	7
Page-level Layout Analysis	D4LA	Precision91.8	7

Showing 10 of 20 rows

Other info

Follow for update

@wizwand_team Discord