TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Captioning	COCO Captions	SimVLM	BLEU-4	40.6	# 17
Image Captioning	COCO Captions	SimVLM	METEOR	33.4	# 2
Image Captioning	COCO Captions	SimVLM	CIDER	143.3	# 13
Image Captioning	COCO Captions	SimVLM	SPICE	25.4	# 7
Visual Reasoning	NLVR2 Dev	SimVLM	Accuracy	84.53	# 8
Visual Reasoning	NLVR2 Test	SimVLM	Accuracy	85.15	# 7
Image Captioning	nocaps entire	Single Model	CIDEr	110.31	# 6
Image Captioning	nocaps entire	Single Model	B1	83.78	# 6
Image Captioning	nocaps entire	Single Model	B2	68.86	# 5
Image Captioning	nocaps entire	Single Model	B3	51.06	# 5
Image Captioning	nocaps entire	Single Model	B4	32.2	# 5
Image Captioning	nocaps entire	Single Model	ROUGE-L	59.86	# 5
Image Captioning	nocaps entire	Single Model	METEOR	30.55	# 6
Image Captioning	nocaps entire	Single Model	SPICE	14.49	# 9
Image Captioning	nocaps in-domain	Single Model	CIDEr	108.98	# 7
Image Captioning	nocaps in-domain	Single Model	B1	84.64	# 6
Image Captioning	nocaps in-domain	Single Model	B2	70.0	# 6
Image Captioning	nocaps in-domain	Single Model	B3	52.96	# 6
Image Captioning	nocaps in-domain	Single Model	B4	34.66	# 7
Image Captioning	nocaps in-domain	Single Model	ROUGE-L	61.01	# 6
Image Captioning	nocaps in-domain	Single Model	METEOR	31.97	# 6
Image Captioning	nocaps in-domain	Single Model	SPICE	14.6	# 11
Image Captioning	nocaps near-domain	Single Model	CIDEr	110.76	# 6
Image Captioning	nocaps near-domain	Single Model	B1	84.36	# 7
Image Captioning	nocaps near-domain	Single Model	B2	69.83	# 6
Image Captioning	nocaps near-domain	Single Model	B3	52.42	# 6
Image Captioning	nocaps near-domain	Single Model	B4	33.74	# 6
Image Captioning	nocaps near-domain	Single Model	ROUGE-L	60.46	# 6
Image Captioning	nocaps near-domain	Single Model	METEOR	30.97	# 7
Image Captioning	nocaps near-domain	Single Model	SPICE	14.61	# 11
Image Captioning	nocaps out-of-domain	Single Model	CIDEr	109.49	# 6
Image Captioning	nocaps out-of-domain	Single Model	B1	80.89	# 7
Image Captioning	nocaps out-of-domain	Single Model	B2	64.21	# 7
Image Captioning	nocaps out-of-domain	Single Model	B3	44.38	# 7
Image Captioning	nocaps out-of-domain	Single Model	B4	24.47	# 8
Image Captioning	nocaps out-of-domain	Single Model	ROUGE-L	56.69	# 7
Image Captioning	nocaps out-of-domain	Single Model	METEOR	27.91	# 7
Image Captioning	nocaps out-of-domain	Single Model	SPICE	13.89	# 7
Image Captioning	nocaps-val-in-domain	SimVLM	CIDEr	113.7	# 6
Image Captioning	nocaps-val-in-domain	SimVLM	SPICE	-	# 11
Image Captioning	nocaps-val-in-domain	SimVLM	Pre-train (#images)	1.8B	# 1
Image Captioning	nocaps-val-near-domain	SimVLM	CIDEr	110.9	# 6
Image Captioning	nocaps-val-near-domain	SimVLM	SPICE	-	# 10
Image Captioning	nocaps-val-near-domain	SimVLM	Pre-train (#images)	1.8B	# 1
Image Captioning	nocaps-val-out-domain	SimVLM	CIDEr	115.2	# 5
Image Captioning	nocaps-val-out-domain	SimVLM	SPICE	-	# 10
Image Captioning	nocaps-val-out-domain	SimVLM	Pretrain (#images)	1.8B	# 1
Image Captioning	nocaps-val-overall	SimVLM	CIDEr	112.2	# 6
Image Captioning	nocaps-val-overall	SimVLM	SPICE	-	# 11
Image Captioning	nocaps-val-overall	SimVLM	Pretrain (#images)	1.8B	# 1
Visual Entailment	SNLI-VE test	SimVLM	Accuracy	86.32	# 4
Visual Entailment	SNLI-VE val	SimVLM	Accuracy	86.21	# 4
Visual Question Answering (VQA)	VQA v2 test-dev	SimVLM	Accuracy	80.03	# 14
Visual Question Answering (VQA)	VQA v2 test-std	SimVLM	overall	80.34	# 7

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/visual-entailment-on-snli-ve-test)](https://paperswithcode.com/sota/visual-entailment-on-snli-ve-test?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/visual-entailment-on-snli-ve-val)](https://paperswithcode.com/sota/visual-entailment-on-snli-ve-val?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-nocaps-val-out-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-out-domain?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-nocaps-entire)](https://paperswithcode.com/sota/image-captioning-on-nocaps-entire?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-nocaps-near-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-near-domain?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-nocaps-out-of-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-out-of-domain?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-nocaps-val-in-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-in-domain?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-nocaps-val-near-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-near-domain?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-nocaps-val-overall)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-overall?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/visual-reasoning-on-nlvr2-test)](https://paperswithcode.com/sota/visual-reasoning-on-nlvr2-test?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-nocaps-in-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-in-domain?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/visual-question-answering-on-vqa-v2-test-std)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-std?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/visual-reasoning-on-nlvr2-dev)](https://paperswithcode.com/sota/visual-reasoning-on-nlvr2-dev?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=simvlm-simple-visual-language-model)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simvlm-simple-visual-language-model/image-captioning-on-coco-captions)](https://paperswithcode.com/sota/image-captioning-on-coco-captions?p=simvlm-simple-visual-language-model)`

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

ICLR 2022 · ZiRui Wang, Jiahui Yu, Adams Wei Yu, Zihang Dai, Yulia Tsvetkov, Yuan Cao ·

With recent progress in joint modeling of visual and textual representations, Vision-Language Pretraining (VLP) has achieved impressive performance on many multimodal downstream tasks. However, the requirement for expensive annotations including clean image captions and regional labels limits the scalability of existing approaches, and complicates the pretraining procedure with the introduction of multiple dataset-specific objectives. In this work, we relax these constraints and present a minimalist pretraining framework, named Simple Visual Language Model (SimVLM). Unlike prior work, SimVLM reduces the training complexity by exploiting large-scale weak supervision, and is trained end-to-end with a single prefix language modeling objective. Without utilizing extra data or task-specific customization, the resulting model significantly outperforms previous pretraining methods and achieves new state-of-the-art results on a wide range of discriminative and generative vision-language benchmarks, including VQA (+3.74% vqa-score), NLVR2 (+1.17% accuracy), SNLI-VE (+1.37% accuracy) and image captioning tasks (+10.1% average CIDEr score). Furthermore, we demonstrate that SimVLM acquires strong generalization and transfer ability, enabling zero-shot behavior including open-ended visual question answering and cross-modality transfer.

PDF Abstract ICLR 2022 PDF ICLR 2022 Abstract

Code

Add Remove Mark official

yulong-XJTU/SimVLM

FerryHuang/SimVLM

Tasks

Add Remove

Image Captioning

Language Modelling

Question Answering

Visual Question Answering

Visual Question Answering (VQA)

Datasets

MultiNLI

SNLI

Visual Question Answering v2.0

COCO Captions

NoCaps SNLI-VE

NLVR

Results from the Paper

Edit

Ranked #4 on Visual Entailment on SNLI-VE val

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Captioning	COCO Captions	SimVLM	BLEU-4	40.6	# 17	Compare
			METEOR	33.4	# 2	Compare
			CIDER	143.3	# 13	Compare
			SPICE	25.4	# 7	Compare
Visual Reasoning	NLVR2 Dev	SimVLM	Accuracy	84.53	# 8	Compare
Visual Reasoning	NLVR2 Test	SimVLM	Accuracy	85.15	# 7	Compare
Image Captioning	nocaps entire	Single Model	CIDEr	110.31	# 6	Compare
			B1	83.78	# 6	Compare
			B2	68.86	# 5	Compare
			B3	51.06	# 5	Compare
			B4	32.2	# 5	Compare
			ROUGE-L	59.86	# 5	Compare
			METEOR	30.55	# 6	Compare
			SPICE	14.49	# 9	Compare
Image Captioning	nocaps in-domain	Single Model	CIDEr	108.98	# 7	Compare
			B1	84.64	# 6	Compare
			B2	70.0	# 6	Compare
			B3	52.96	# 6	Compare
			B4	34.66	# 7	Compare
			ROUGE-L	61.01	# 6	Compare
			METEOR	31.97	# 6	Compare
			SPICE	14.6	# 11	Compare
Image Captioning	nocaps near-domain	Single Model	CIDEr	110.76	# 6	Compare
			B1	84.36	# 7	Compare
			B2	69.83	# 6	Compare
			B3	52.42	# 6	Compare
			B4	33.74	# 6	Compare
			ROUGE-L	60.46	# 6	Compare
			METEOR	30.97	# 7	Compare
			SPICE	14.61	# 11	Compare
Image Captioning	nocaps out-of-domain	Single Model	CIDEr	109.49	# 6	Compare
			B1	80.89	# 7	Compare
			B2	64.21	# 7	Compare
			B3	44.38	# 7	Compare
			B4	24.47	# 8	Compare
			ROUGE-L	56.69	# 7	Compare
			METEOR	27.91	# 7	Compare
			SPICE	13.89	# 7	Compare
Image Captioning	nocaps-val-in-domain	SimVLM	CIDEr	113.7	# 6	Compare
			SPICE	-	# 11	Compare
			Pre-train (#images)	1.8B	# 1	Compare
Image Captioning	nocaps-val-near-domain	SimVLM	CIDEr	110.9	# 6	Compare
			SPICE	-	# 10	Compare
			Pre-train (#images)	1.8B	# 1	Compare
Image Captioning	nocaps-val-out-domain	SimVLM	CIDEr	115.2	# 5	Compare
			SPICE	-	# 10	Compare
			Pretrain (#images)	1.8B	# 1	Compare
Image Captioning	nocaps-val-overall	SimVLM	CIDEr	112.2	# 6	Compare
			SPICE	-	# 11	Compare
			Pretrain (#images)	1.8B	# 1	Compare
Visual Entailment	SNLI-VE test	SimVLM	Accuracy	86.32	# 4	Compare
Visual Entailment	SNLI-VE val	SimVLM	Accuracy	86.21	# 4	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	SimVLM	Accuracy	80.03	# 14	Compare
Visual Question Answering (VQA)	VQA v2 test-std	SimVLM	overall	80.34	# 7	Compare

Methods

Add Remove

SimVLM

Edit Social Preview

SimVLM: Simple Visual Language Model Pretraining with Weak Supervision

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove