CC3M

Benchmarks

Task Name	Dataset Name	SOTA Result
Image Generation	CC3M SDXL v1.0 (test)	FID33.49	27
Aesthetic Evaluation	CC3M SDXL 1.0 (test)	HPS0.2932	27
Object Recognition	CC3M (test)	Recall0.738	21
Aesthetic Evaluation	CC3M	HPS0.2757	15
Image Generation	CC3M (test)	FID36.96	15
Multimodal Understanding	CC3M IOD	Accuracy100	14
Malicious Prompt Detection	CC3M (IOD)	FPR0	14
Text-to-Image Retrieval	CC3M	Recall45.7	9
Image-to-Text Retrieval	CC3M	Recall47.2	9
Image Classification	CC3M	Accuracy46.7	9
Multi-Tag Selection	CC3M (test)	Precision92.5	9
Text-to-image generation	CC3M	FID6.06	7
Image-Text Retrieval	CC3M-595K-LLaVA 1	IR Score7.6	6
Conditional Inversion	CC3M first 500 images	PSNR25.24	6
Unconditional Inversion	CC3M first 500 images	PSNR24.41	6
Multi-Tag Selection	CC3M	Precision0.883	6
Backdoor Defense (Multimodal)	CC3M 60K subset 1.0 (test)	Clean Accuracy (CA)64.03	5
Vision-Language Compositional Evaluation	CC3M 50,000 random subset TripletData	Text Score92.25	4
Text-level Semantic Segmentation	CC3M (subset)	Caption IoU65.5	4
Object Recognition	CC3M	Recall86.8	3

Showing 20 of 20 rows