Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining

About

We present Lumina-mGPT, a family of multimodal autoregressive models capable of various vision and language tasks, particularly excelling in generating flexible photorealistic images from text descriptions. By initializing from multimodal Generative PreTraining (mGPT), we demonstrate that decoder-only Autoregressive (AR) model can achieve image generation performance comparable to modern diffusion models with high efficiency through Flexible Progressive Supervised Fine-tuning (FP-SFT). Equipped with our proposed Unambiguous image Representation (UniRep), Lumina-mGPT can flexibly generate high-quality images of varying aspect ratios. Building on the strong image generation capabilities, we further explore Ominiponent Supervised Fine-tuning (Omni-SFT), an initial attempt to elevate Lumina-mGPT into a unified multi-modal generalist. The resulting model demonstrates versatile multimodal capabilities, including visual generation tasks like text-to-image/multiview generation and controllable generation, visual recognition tasks like segmentation and depth estimation, and vision-language tasks like multi-turn visual question answering, showing the rosy potential of the technical direction. Codes and checkpoints are available at https://github.com/Alpha-VLLM/Lumina-mGPT.

Dongyang Liu, Shitian Zhao, Le Zhuo, Weifeng Lin, Yi Xin, Xinyue Li, Qi Qin, Yu Qiao, Hongsheng Li, Peng Gao• 2024

Related benchmarks

Task	Dataset	Result
Text-to-Image Generation	GenEval	Overall Score56	391
Text-to-Image Generation	GenEval	GenEval Score56	360
Text-to-Image Generation	DPG	Overall Score79.98	172
Text-to-Image Generation	DPG-Bench	DPG Score79.7	131
Text-to-Image Generation	MS COCO 2017	FID30.79	41
Text-to-Image Generation	PartiPrompt	Latency (s)79.37	23
Image Generation	MS COCO 2017	Speedup Factor1	23
Text-to-Image Generation	GenEval	Single Object Accuracy100	11
Image Generation	PartiPrompts	Step Compression1	11
Image Generation	Image Generation Dataset	CLIP Score0.333	7

Showing 10 of 10 rows

Other info

Follow for update

@wizwand_team Discord