InstanceDiffusion: Instance-level Control for Image Generation

About

Text-to-image diffusion models produce high quality images but do not offer control over individual instances in the image. We introduce InstanceDiffusion that adds precise instance-level control to text-to-image diffusion models. InstanceDiffusion supports free-form language conditions per instance and allows flexible ways to specify instance locations such as simple single points, scribbles, bounding boxes or intricate instance segmentation masks, and combinations thereof. We propose three major changes to text-to-image models that enable precise instance-level control. Our UniFusion block enables instance-level conditions for text-to-image models, the ScaleU block improves image fidelity, and our Multi-instance Sampler improves generations for multiple instances. InstanceDiffusion significantly surpasses specialized state-of-the-art models for each location condition. Notably, on the COCO dataset, we outperform previous state-of-the-art by 20.4% AP$_{50}^\text{box}$ for box inputs, and 25.4% IoU for mask inputs.

Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, Ishan Misra• 2024

Related benchmarks

Task	Dataset	Result
Text-to-Image Generation	T2I-CompBench	Shape Fidelity44.72	185
Compositional text-to-image generation	T2I-CompBench	Color Accuracy0.5433	16
Controllable Image Generation (Counting)	COUNTLOOP-S Single Category	Counting MAE16.07	15
Controllable Image Generation (Counting)	COUNTLOOP-M Multi Categories	Counting MAE6.11	15
Controllable Image Generation (Counting)	COCO-Count Single Category	Counting MAE1.77	15
Controllable Image Generation (Counting)	T2I-CompBench Single Category	Counting MAE2.83	15
Compositional Image Generation	COCO-MIG L2	Instance Attr Success Ratio68.24	14
Compositional Image Generation	COCO-MIG L3	Instance Attribute Success Ratio60.47	14
Compositional Image Generation	COCO-MIG L4	Instance Attribute Success Ratio59.88	14
Compositional Image Generation	COCO-MIG L5	Instance Attribute Success Ratio53.92	14

Showing 10 of 41 rows

Other info

Code

Follow for update

@wizwand_team Discord