TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract 1.0 multiple choice	LSTM blind	Percentage correct	61.41	# 4
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract 1.0 multiple choice	Dualnet ensemble	Percentage correct	71.18	# 2
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract 1.0 multiple choice	LSTM + global features	Percentage correct	69.21	# 3
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract images 1.0 open ended	LSTM blind	Percentage correct	57.19	# 4
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract images 1.0 open ended	LSTM + global features	Percentage correct	65.02	# 3
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract images 1.0 open ended	Dualnet ensemble	Percentage correct	69.73	# 2
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 1.0 multiple choice	LSTM Q+I	Percentage correct	63.1	# 9
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 1.0 open ended	LSTM Q+I	Percentage correct	58.2	# 12
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 2.0 open ended	HDU-USYD-UNCC	Percentage correct	68.16	# 1
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 2.0 open ended	DLAIT	Percentage correct	68.07	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vqa-visual-question-answering/visual-question-answering-on-coco-visual)](https://paperswithcode.com/sota/visual-question-answering-on-coco-visual?p=vqa-visual-question-answering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vqa-visual-question-answering/visual-question-answering-on-coco-visual-3)](https://paperswithcode.com/sota/visual-question-answering-on-coco-visual-3?p=vqa-visual-question-answering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vqa-visual-question-answering/visual-question-answering-on-coco-visual-2)](https://paperswithcode.com/sota/visual-question-answering-on-coco-visual-2?p=vqa-visual-question-answering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vqa-visual-question-answering/visual-question-answering-on-coco-visual-1)](https://paperswithcode.com/sota/visual-question-answering-on-coco-visual-1?p=vqa-visual-question-answering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vqa-visual-question-answering/visual-question-answering-on-coco-visual-4)](https://paperswithcode.com/sota/visual-question-answering-on-coco-visual-4?p=vqa-visual-question-answering)`

VQA: Visual Question Answering

ICCV 2015 · Aishwarya Agrawal, Jiasen Lu, Stanislaw Antol, Margaret Mitchell, C. Lawrence Zitnick, Dhruv Batra, Devi Parikh ·

We propose the task of free-form and open-ended Visual Question Answering (VQA). Given an image and a natural language question about the image, the task is to provide an accurate natural language answer. Mirroring real-world scenarios, such as helping the visually impaired, both the questions and answers are open-ended. Visual questions selectively target different areas of an image, including background details and underlying context. As a result, a system that succeeds at VQA typically needs a more detailed understanding of the image and complex reasoning than a system producing generic image captions. Moreover, VQA is amenable to automatic evaluation, since many open-ended answers contain only a few words or a closed set of answers that can be provided in a multiple-choice format. We provide a dataset containing ~0.25M images, ~0.76M questions, and ~10M answers (www.visualqa.org), and discuss the information it provides. Numerous baselines and methods for VQA are provided and compared with human performance. Our VQA demo is available on CloudCV (http://cloudcv.org/vqa).

PDF Abstract ICCV 2015 PDF ICCV 2015 Abstract

Code

Add Remove Mark official

ramprs/grad-cam

1,421

abhshkdz/neural-vqa-attention

tbmoon/basic_vqa

Shivanshu-Gupta/Visual-Question-Ans…

vipulgupta1011/swapmix

See all 21 implementations

Tasks

Add Remove

Image Captioning

Multiple-choice

Visual Question Answering

Visual Question Answering (VQA)

Datasets

Introduced in the Paper:

Visual Question Answering

Used in the Paper:

MS COCO

COCO Captions

Results from the Paper

Edit

Ranked #1 on Visual Question Answering (VQA) on COCO Visual Question Answering (VQA) real images 2.0 open ended

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract 1.0 multiple choice	LSTM blind	Percentage correct	61.41	# 4	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract 1.0 multiple choice	Dualnet ensemble	Percentage correct	71.18	# 2	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract 1.0 multiple choice	LSTM + global features	Percentage correct	69.21	# 3	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract images 1.0 open ended	LSTM blind	Percentage correct	57.19	# 4	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract images 1.0 open ended	LSTM + global features	Percentage correct	65.02	# 3	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) abstract images 1.0 open ended	Dualnet ensemble	Percentage correct	69.73	# 2	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 1.0 multiple choice	LSTM Q+I	Percentage correct	63.1	# 9	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 1.0 open ended	LSTM Q+I	Percentage correct	58.2	# 12	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 2.0 open ended	HDU-USYD-UNCC	Percentage correct	68.16	# 1	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 2.0 open ended	DLAIT	Percentage correct	68.07	# 2	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

VQA: Visual Question Answering

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove