TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering (VQA)	A-OKVQA	LXMERT	MC Accuracy	41.6	# 8
Visual Question Answering (VQA)	A-OKVQA	LXMERT	DA VQA Score	25.9	# 9
Visual Question Answering (VQA)	GQA Test2019	LXR955, Ensemble	Accuracy	62.71	# 15
Visual Question Answering (VQA)	GQA Test2019	LXR955, Ensemble	Binary	79.79	# 13
Visual Question Answering (VQA)	GQA Test2019	LXR955, Ensemble	Open	47.64	# 15
Visual Question Answering (VQA)	GQA Test2019	LXR955, Ensemble	Consistency	93.1	# 10
Visual Question Answering (VQA)	GQA Test2019	LXR955, Ensemble	Plausibility	85.21	# 15
Visual Question Answering (VQA)	GQA Test2019	LXR955, Ensemble	Validity	96.36	# 39
Visual Question Answering (VQA)	GQA Test2019	LXR955, Ensemble	Distribution	6.42	# 39
Visual Question Answering (VQA)	GQA Test2019	LXR955, Single Model	Accuracy	60.33	# 36
Visual Question Answering (VQA)	GQA Test2019	LXR955, Single Model	Binary	77.16	# 41
Visual Question Answering (VQA)	GQA Test2019	LXR955, Single Model	Open	45.47	# 35
Visual Question Answering (VQA)	GQA Test2019	LXR955, Single Model	Consistency	89.59	# 42
Visual Question Answering (VQA)	GQA Test2019	LXR955, Single Model	Plausibility	84.53	# 74
Visual Question Answering (VQA)	GQA Test2019	LXR955, Single Model	Validity	96.35	# 47
Visual Question Answering (VQA)	GQA Test2019	LXR955, Single Model	Distribution	5.69	# 74
Visual Question Answering (VQA)	GQA test-dev	LXMERT (Pre-train + scratch)	Accuracy	60.0	# 5
Visual Question Answering (VQA)	GQA test-std	LXMERT	Accuracy	60.3	# 4
Visual Reasoning	NLVR2 Dev	LXMERT (Pre-train + scratch)	Accuracy	74.9	# 14
Visual Reasoning	NLVR2 Test	LXMERT	Accuracy	76.2	# 12
Visual Question Answering (VQA)	VizWiz 2018	LXR955, No Ensemble	overall	55.4	# 1
Visual Question Answering (VQA)	VizWiz 2018	LXR955, No Ensemble	yes/no	74.0	# 1
Visual Question Answering (VQA)	VizWiz 2018	LXR955, No Ensemble	number	24.76	# 3
Visual Question Answering (VQA)	VizWiz 2018	LXR955, No Ensemble	other	39.0	# 1
Visual Question Answering (VQA)	VizWiz 2018	LXR955, No Ensemble	unanswerable	82.26	# 5
Visual Question Answering (VQA)	VQA v2 test-dev	LXMERT (Pre-train + scratch)	Accuracy	69.9	# 32
Visual Question Answering (VQA)	VQA v2 test-std	LXMERT	overall	72.5	# 22

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-question-answering-on-vizwiz-2018-1)](https://paperswithcode.com/sota/visual-question-answering-on-vizwiz-2018-1?p=lxmert-learning-cross-modality-encoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-question-answering-on-gqa-test-std)](https://paperswithcode.com/sota/visual-question-answering-on-gqa-test-std?p=lxmert-learning-cross-modality-encoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-question-answering-on-gqa-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-gqa-test-dev?p=lxmert-learning-cross-modality-encoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-question-answering-on-a-okvqa)](https://paperswithcode.com/sota/visual-question-answering-on-a-okvqa?p=lxmert-learning-cross-modality-encoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-reasoning-on-nlvr2-test)](https://paperswithcode.com/sota/visual-reasoning-on-nlvr2-test?p=lxmert-learning-cross-modality-encoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-reasoning-on-nlvr2-dev)](https://paperswithcode.com/sota/visual-reasoning-on-nlvr2-dev?p=lxmert-learning-cross-modality-encoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-question-answering-on-gqa-test2019)](https://paperswithcode.com/sota/visual-question-answering-on-gqa-test2019?p=lxmert-learning-cross-modality-encoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-question-answering-on-vqa-v2-test-std)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-std?p=lxmert-learning-cross-modality-encoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lxmert-learning-cross-modality-encoder/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=lxmert-learning-cross-modality-encoder)`

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

IJCNLP 2019 · Hao Tan, Mohit Bansal ·

Vision-and-language reasoning requires an understanding of visual concepts, language semantics, and, most importantly, the alignment and relationships between these two modalities. We thus propose the LXMERT (Learning Cross-Modality Encoder Representations from Transformers) framework to learn these vision-and-language connections. In LXMERT, we build a large-scale Transformer model that consists of three encoders: an object relationship encoder, a language encoder, and a cross-modality encoder. Next, to endow our model with the capability of connecting vision and language semantics, we pre-train the model with large amounts of image-and-sentence pairs, via five diverse representative pre-training tasks: masked language modeling, masked object prediction (feature regression and label classification), cross-modality matching, and image question answering. These tasks help in learning both intra-modality and cross-modality relationships. After fine-tuning from our pre-trained parameters, our model achieves the state-of-the-art results on two visual question answering datasets (i.e., VQA and GQA). We also show the generalizability of our pre-trained cross-modality model by adapting it to a challenging visual-reasoning task, NLVR2, and improve the previous best result by 22% absolute (54% to 76%). Lastly, we demonstrate detailed ablation studies to prove that both our novel model components and pre-training strategies significantly contribute to our strong results; and also present several attention visualizations for the different encoders. Code and pre-trained models publicly available at: https://github.com/airsplay/lxmert

PDF Abstract IJCNLP 2019 PDF IJCNLP 2019 Abstract

Code

Add Remove Mark official

airsplay/lxmert official

912

huggingface/transformers

124,457

zhegan27/VILLA

118

zhegan27/LXMERT-AdvTrain

social-ai-studio/matk

See all 9 implementations

Tasks

Add Remove

Language Modelling

Masked Language Modeling

Question Answering

Sentence

Visual Question Answering

Visual Question Answering (VQA)

Visual Reasoning

Datasets

ImageNet

MS COCO

Visual Genome

GQA

Visual Question Answering v2.0

VizWiz

A-OKVQA

NLVR

Results from the Paper

Edit

Ranked #1 on Visual Question Answering (VQA) on VizWiz 2018

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering (VQA)	A-OKVQA	LXMERT	MC Accuracy	41.6	# 8	Compare
Visual Question Answering (VQA)	A-OKVQA	LXMERT	DA VQA Score	25.9	# 9	Compare
Visual Question Answering (VQA)	GQA Test2019	LXR955, Ensemble	Accuracy	62.71	# 15	Compare
			Binary	79.79	# 13	Compare
			Open	47.64	# 15	Compare
			Consistency	93.1	# 10	Compare
			Plausibility	85.21	# 15	Compare
			Validity	96.36	# 39	Compare
			Distribution	6.42	# 39	Compare
Visual Question Answering (VQA)	GQA Test2019	LXR955, Single Model	Accuracy	60.33	# 36	Compare
			Binary	77.16	# 41	Compare
			Open	45.47	# 35	Compare
			Consistency	89.59	# 42	Compare
			Plausibility	84.53	# 74	Compare
			Validity	96.35	# 47	Compare
			Distribution	5.69	# 74	Compare
Visual Question Answering (VQA)	GQA test-dev	LXMERT (Pre-train + scratch)	Accuracy	60.0	# 5	Compare
Visual Question Answering (VQA)	GQA test-std	LXMERT	Accuracy	60.3	# 4	Compare
Visual Reasoning	NLVR2 Dev	LXMERT (Pre-train + scratch)	Accuracy	74.9	# 14	Compare
Visual Reasoning	NLVR2 Test	LXMERT	Accuracy	76.2	# 12	Compare
Visual Question Answering (VQA)	VizWiz 2018	LXR955, No Ensemble	overall	55.4	# 1	Compare
			yes/no	74.0	# 1	Compare
			number	24.76	# 3	Compare
			other	39.0	# 1	Compare
			unanswerable	82.26	# 5	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	LXMERT (Pre-train + scratch)	Accuracy	69.9	# 32	Compare
Visual Question Answering (VQA)	VQA v2 test-std	LXMERT	overall	72.5	# 22	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • LXMERT • Multi-Head Attention • Position-Wise Feed-Forward Layer • ReLU • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove