FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution

About

Arbitrary-resolution image generation still remains a challenging task in AIGC, as it requires handling varying resolutions and aspect ratios while maintaining high visual quality. Existing transformer-based diffusion methods suffer from quadratic computation cost and limited resolution extrapolation capabilities, making them less effective for this task. In this paper, we propose FlowDCN, a purely convolution-based generative model with linear time and memory complexity, that can efficiently generate high-quality images at arbitrary resolutions. Equipped with a new design of learnable group-wise deformable convolution block, our FlowDCN yields higher flexibility and capability to handle different resolutions with a single model. FlowDCN achieves the state-of-the-art 4.30 sFID on $256\times256$ ImageNet Benchmark and comparable resolution extrapolation results, surpassing transformer-based counterparts in terms of convergence speed (only $\frac{1}{5}$ images), visual quality, parameters ($8\%$ reduction) and FLOPs ($20\%$ reduction). We believe FlowDCN offers a promising solution to scalable and flexible image synthesis.

Shuai Wang, Zexian Li, Tianhui Song, Xubin Li, Tiezheng Ge, Bo Zheng, Limin Wang• 2024

Related benchmarks

Task	Dataset	Result
Class-conditional Image Generation	ImageNet 256x256	Inception Score (IS)263.1	967
Class-conditional Image Generation	ImageNet 256x256 (val)	Inception Score (IS)263.1	493
Image Generation	ImageNet 512x512 (val)	FID-50K2.44	219
Class-conditional Image Generation	ImageNet 256x256 (train val)	FID2	203
Class-to-image generation	ImageNet 256x256	FID8.36	38
Class-conditional Image Generation	ImageNet 1K 512x512 (test)	FID2.44	32

Showing 6 of 6 rows

Other info

Follow for update

@wizwand_team Discord