OpenFlamingo: An Open-Source Framework for Training Large Autoregressive Vision-Language Models

About

We introduce OpenFlamingo, a family of autoregressive vision-language models ranging from 3B to 9B parameters. OpenFlamingo is an ongoing effort to produce an open-source replication of DeepMind's Flamingo models. On seven vision-language datasets, OpenFlamingo models average between 80 - 89% of corresponding Flamingo performance. This technical report describes our models, training data, hyperparameters, and evaluation suite. We share our models and code at https://github.com/mlfoundations/open_flamingo.

Anas Awadalla, Irena Gao, Josh Gardner, Jack Hessel, Yusuf Hanafy, Wanrong Zhu, Kalyani Marathe, Yonatan Bitton, Samir Gadre, Shiori Sagawa, Jenia Jitsev, Simon Kornblith, Pang Wei Koh, Gabriel Ilharco, Mitchell Wortsman, Ludwig Schmidt• 2023

Related benchmarks

Task	Dataset	Result
Object Hallucination Evaluation	POPE	--	2019
Visual Question Answering	VizWiz	Accuracy44	1820
Visual Question Answering	TextVQA	Accuracy54.7	1453
Visual Question Answering	VQA v2	Accuracy54.8	1429
Multimodal Understanding	MMBench	Accuracy6.6	847
Visual Question Answering	VQA v2 (test-dev)	Overall Accuracy54.8	712
Multimodal Understanding	MM-Vet	MM-Vet Score21.8	631
Video Understanding	MVBench	Accuracy7.9	563
Multimodal Reasoning	MM-Vet	MM-Vet Score24.8	517
Visual Question Answering	TextVQA (val)	VQA Score2.83e+3	365

Showing 10 of 112 rows

...

Other info

Code

Follow for update

@wizwand_team Discord