TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Referring Expression Comprehension	RefCoco+	VILLA-large	Val	76.17	# 8
Referring Expression Comprehension	RefCoco+	VILLA-large	Test A	81.54	# 8
Referring Expression Comprehension	RefCoco+	VILLA-large	Test B	66.84	# 8
Referring Expression Comprehension	RefCOCO	VILLA-large	Val	82.39	# 12
Referring Expression Comprehension	RefCOCO	VILLA-large	Test A	87.48	# 11
Referring Expression Comprehension	RefCOCO	VILLA-large	Test B	74.84	# 13
Referring Expression Comprehension	RefCOCOg-test	VILLA-large	Accuracy	76.71	# 8
Referring Expression Comprehension	RefCOCOg-val	VILLA-large	Accuracy	76.18	# 9
Visual Entailment	SNLI-VE val	VILLA-LARGE	Accuracy	80.18	# 7

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/large-scale-adversarial-training-for-vision/visual-entailment-on-snli-ve-val)](https://paperswithcode.com/sota/visual-entailment-on-snli-ve-val?p=large-scale-adversarial-training-for-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/large-scale-adversarial-training-for-vision/referring-expression-comprehension-on-refcoco-1)](https://paperswithcode.com/sota/referring-expression-comprehension-on-refcoco-1?p=large-scale-adversarial-training-for-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/large-scale-adversarial-training-for-vision/referring-expression-comprehension-on-1)](https://paperswithcode.com/sota/referring-expression-comprehension-on-1?p=large-scale-adversarial-training-for-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/large-scale-adversarial-training-for-vision/referring-expression-comprehension-on)](https://paperswithcode.com/sota/referring-expression-comprehension-on?p=large-scale-adversarial-training-for-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/large-scale-adversarial-training-for-vision/referring-expression-comprehension-on-refcoco)](https://paperswithcode.com/sota/referring-expression-comprehension-on-refcoco?p=large-scale-adversarial-training-for-vision)`

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

NeurIPS 2020 · Zhe Gan, Yen-Chun Chen, Linjie Li, Chen Zhu, Yu Cheng, Jingjing Liu ·

We present VILLA, the first known effort on large-scale adversarial training for vision-and-language (V+L) representation learning. VILLA consists of two training stages: (i) task-agnostic adversarial pre-training; followed by (ii) task-specific adversarial finetuning. Instead of adding adversarial perturbations on image pixels and textual tokens, we propose to perform adversarial training in the embedding space of each modality. To enable large-scale training, we adopt the "free" adversarial training strategy, and combine it with KL-divergence-based regularization to promote higher invariance in the embedding space. We apply VILLA to current best-performing V+L models, and achieve new state of the art on a wide range of tasks, including Visual Question Answering, Visual Commonsense Reasoning, Image-Text Retrieval, Referring Expression Comprehension, Visual Entailment, and NLVR2.

PDF Abstract NeurIPS 2020 PDF NeurIPS 2020 Abstract

Code

Add Remove Mark official

zhegan27/VILLA official

118

zhegan27/LXMERT-AdvTrain official

Tasks

Add Remove

Question Answering

Referring Expression

Referring Expression Comprehension

Representation Learning

Retrieval

Text Retrieval

Visual Commonsense Reasoning

Visual Entailment

Visual Question Answering

Visual Question Answering (VQA)

Visual Reasoning

Datasets

MS COCO

Visual Question Answering

Visual Genome

GQA

RefCOCO

VCR SNLI-VE Google Refexp

Results from the Paper

Edit

Ranked #7 on Visual Entailment on SNLI-VE val (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Referring Expression Comprehension	RefCoco+	VILLA-large	Val	76.17	# 8	Compare
			Test A	81.54	# 8	Compare
			Test B	66.84	# 8	Compare
Referring Expression Comprehension	RefCOCO	VILLA-large	Val	82.39	# 12	Compare
			Test A	87.48	# 11	Compare
			Test B	74.84	# 13	Compare
Referring Expression Comprehension	RefCOCOg-test	VILLA-large	Accuracy	76.71	# 8	Compare
Referring Expression Comprehension	RefCOCOg-val	VILLA-large	Accuracy	76.18	# 9	Compare
Visual Entailment	SNLI-VE val	VILLA-LARGE	Accuracy	80.18	# 7	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Large-Scale Adversarial Training for Vision-and-Language Representation Learning

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove