TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Phrase Grounding	Flickr30k Entities Dev	VisualBERT	R@1	70.4	# 3
Phrase Grounding	Flickr30k Entities Dev	VisualBERT	R@10	86.31	# 2
Phrase Grounding	Flickr30k Entities Dev	VisualBERT	R@5	84.49	# 2
Phrase Grounding	Flickr30k Entities Test	VisualBERT	R@1	71.33	# 10
Phrase Grounding	Flickr30k Entities Test	VisualBERT	R@10	86.51	# 4
Phrase Grounding	Flickr30k Entities Test	VisualBERT	R@5	84.98	# 4
Visual Reasoning	NLVR	VisualBERT	Accuracy (Dev)	67.4%	# 1
Visual Reasoning	NLVR	VisualBERT	Accuracy (Test-P)	67%	# 1
Visual Reasoning	NLVR	VisualBERT	Accuracy (Test-U)	67.3%	# 1
Visual Reasoning	NLVR2 Dev	VisualBERT	Accuracy	66.7	# 15
Visual Question Answering (VQA)	VCR (Q-A) dev	VisualBERT	Accuracy	70.8	# 3
Visual Question Answering (VQA)	VCR (Q-AR) dev	VisualBERT	Accuracy	52.2	# 3
Visual Question Answering (VQA)	VCR (QA-R) dev	VisualBERT	Accuracy	73.2	# 3
Visual Question Answering (VQA)	VCR (Q-AR) test	VisualBERT	Accuracy	52.4	# 7
Visual Question Answering (VQA)	VCR (QA-R) test	VisualBERT	Accuracy	73.2	# 8
Visual Question Answering (VQA)	VCR (Q-A) test	VisualBERT	Accuracy	71.6	# 9
Visual Question Answering (VQA)	VQA v2 test-dev	VisualBERT	Accuracy	70.8	# 29
Visual Question Answering (VQA)	VQA v2 test-std	VisualBERT	overall	71	# 25

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-reasoning-on-nlvr)](https://paperswithcode.com/sota/visual-reasoning-on-nlvr?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/phrase-grounding-on-flickr30k-entities-dev)](https://paperswithcode.com/sota/phrase-grounding-on-flickr30k-entities-dev?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-question-answering-on-vcr-q-a-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-a-dev?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-question-answering-on-vcr-q-ar-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-ar-dev?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-question-answering-on-vcr-qa-r-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-qa-r-dev?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-question-answering-on-vcr-q-ar-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-ar-test?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-question-answering-on-vcr-qa-r-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-qa-r-test?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-question-answering-on-vcr-q-a-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-a-test?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/phrase-grounding-on-flickr30k-entities-test)](https://paperswithcode.com/sota/phrase-grounding-on-flickr30k-entities-test?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-reasoning-on-nlvr2-dev)](https://paperswithcode.com/sota/visual-reasoning-on-nlvr2-dev?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-question-answering-on-vqa-v2-test-std)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-std?p=visualbert-a-simple-and-performant-baseline)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/visualbert-a-simple-and-performant-baseline/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=visualbert-a-simple-and-performant-baseline)`

VisualBERT: A Simple and Performant Baseline for Vision and Language

9 Aug 2019 · Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang ·

We propose VisualBERT, a simple and flexible framework for modeling a broad range of vision-and-language tasks. VisualBERT consists of a stack of Transformer layers that implicitly align elements of an input text and regions in an associated input image with self-attention. We further propose two visually-grounded language model objectives for pre-training VisualBERT on image caption data. Experiments on four vision-and-language tasks including VQA, VCR, NLVR2, and Flickr30K show that VisualBERT outperforms or rivals with state-of-the-art models while being significantly simpler. Further analysis demonstrates that VisualBERT can ground elements of language to image regions without any explicit supervision and is even sensitive to syntactic relationships, tracking, for example, associations between verbs and image regions corresponding to their arguments.

PDF Abstract

Code

Add Remove Mark official

uclanlp/visualbert

516

YIKUAN8/Transformers-VQA

161

lalithjets/surgical_vqa

gchhablani/multilingual-vqa

longbai1006/surgical-vqla

See all 7 implementations

Tasks

Add Remove

Language Modelling

Visual Question Answering (VQA)

Visual Reasoning

Datasets

MS COCO

Visual Question Answering

Visual Genome

Visual Question Answering v2.0

VCR

Flickr30K Entities

NLVR

Results from the Paper

Edit

Ranked #1 on Visual Reasoning on NLVR

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Phrase Grounding	Flickr30k Entities Dev	VisualBERT	R@1	70.4	# 3	Compare
			R@10	86.31	# 2	Compare
			R@5	84.49	# 2	Compare
Phrase Grounding	Flickr30k Entities Test	VisualBERT	R@1	71.33	# 10	Compare
			R@10	86.51	# 4	Compare
			R@5	84.98	# 4	Compare
Visual Reasoning	NLVR	VisualBERT	Accuracy (Dev)	67.4%	# 1	Compare
			Accuracy (Test-P)	67%	# 1	Compare
			Accuracy (Test-U)	67.3%	# 1	Compare
Visual Reasoning	NLVR2 Dev	VisualBERT	Accuracy	66.7	# 15	Compare
Visual Question Answering (VQA)	VCR (Q-A) dev	VisualBERT	Accuracy	70.8	# 3	Compare
Visual Question Answering (VQA)	VCR (Q-AR) dev	VisualBERT	Accuracy	52.2	# 3	Compare
Visual Question Answering (VQA)	VCR (QA-R) dev	VisualBERT	Accuracy	73.2	# 3	Compare
Visual Question Answering (VQA)	VCR (Q-AR) test	VisualBERT	Accuracy	52.4	# 7	Compare
Visual Question Answering (VQA)	VCR (QA-R) test	VisualBERT	Accuracy	73.2	# 8	Compare
Visual Question Answering (VQA)	VCR (Q-A) test	VisualBERT	Accuracy	71.6	# 9	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	VisualBERT	Accuracy	70.8	# 29	Compare
Visual Question Answering (VQA)	VQA v2 test-std	VisualBERT	overall	71	# 25	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • ReLU • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • VisualBERT

Edit Social Preview

VisualBERT: A Simple and Performant Baseline for Vision and Language

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove