TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 1.0 multiple choice	HQI+ResNet	Percentage correct	66.1	# 7
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 1.0 open ended	HQI+ResNet	Percentage correct	62.1	# 6
Visual Dialog	VisDial v0.9 val	HieCoAtt-QI	MRR	57.88	# 9
Visual Dialog	VisDial v0.9 val	HieCoAtt-QI	Mean Rank	5.84	# 18
Visual Dialog	VisDial v0.9 val	HieCoAtt-QI	R@1	43.51	# 18
Visual Dialog	VisDial v0.9 val	HieCoAtt-QI	R@10	83.96	# 18
Visual Dialog	VisDial v0.9 val	HieCoAtt-QI	R@5	74.49	# 18
Visual Question Answering (VQA)	VQA v1 test-dev	HieCoAtt (ResNet)	Accuracy	61.8	# 5
Visual Question Answering (VQA)	VQA v1 test-std	HieCoAtt (ResNet)	Accuracy	62.1	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-question-image-co-attention-for/visual-question-answering-on-vqa-v1-test-std)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v1-test-std?p=hierarchical-question-image-co-attention-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-question-image-co-attention-for/visual-question-answering-on-vqa-v1-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v1-test-dev?p=hierarchical-question-image-co-attention-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-question-image-co-attention-for/visual-question-answering-on-coco-visual-4)](https://paperswithcode.com/sota/visual-question-answering-on-coco-visual-4?p=hierarchical-question-image-co-attention-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-question-image-co-attention-for/visual-question-answering-on-coco-visual-1)](https://paperswithcode.com/sota/visual-question-answering-on-coco-visual-1?p=hierarchical-question-image-co-attention-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hierarchical-question-image-co-attention-for/visual-dialog-on-visdial-v09-val)](https://paperswithcode.com/sota/visual-dialog-on-visdial-v09-val?p=hierarchical-question-image-co-attention-for)`

Hierarchical Question-Image Co-Attention for Visual Question Answering

NeurIPS 2016 · Jiasen Lu, Jianwei Yang, Dhruv Batra, Devi Parikh ·

A number of recent works have proposed attention models for Visual Question Answering (VQA) that generate spatial maps highlighting image regions relevant to answering the question. In this paper, we argue that in addition to modeling "where to look" or visual attention, it is equally important to model "what words to listen to" or question attention. We present a novel co-attention model for VQA that jointly reasons about image and question attention. In addition, our model reasons about the question (and consequently the image via the co-attention mechanism) in a hierarchical fashion via a novel 1-dimensional convolution neural networks (CNN). Our model improves the state-of-the-art on the VQA dataset from 60.3% to 60.5%, and from 61.6% to 63.3% on the COCO-QA dataset. By using ResNet, the performance is further improved to 62.1% for VQA and 65.4% for COCO-QA.

PDF Abstract NeurIPS 2016 PDF NeurIPS 2016 Abstract

Code

Add Remove Mark official

jiasenlu/HieCoAttenVQA official

344

karunraju/VQA

arya46/VQA_HieCoAtt

SkyOL5/VQA-CoAttention

miohana/vqa

See all 9 implementations

Tasks

Add Remove

Visual Dialog

Visual Question Answering

Visual Question Answering (VQA)

Datasets

MS COCO

Visual Question Answering

VisDial

COCO-QA

Results from the Paper

Edit

Ranked #3 on Visual Question Answering (VQA) on VQA v1 test-std

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 1.0 multiple choice	HQI+ResNet	Percentage correct	66.1	# 7	Compare
Visual Question Answering (VQA)	COCO Visual Question Answering (VQA) real images 1.0 open ended	HQI+ResNet	Percentage correct	62.1	# 6	Compare
Visual Question Answering (VQA)	VQA v1 test-dev	HieCoAtt (ResNet)	Accuracy	61.8	# 5	Compare
Visual Question Answering (VQA)	VQA v1 test-std	HieCoAtt (ResNet)	Accuracy	62.1	# 3	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Compare
Visual Dialog	VisDial v0.9 val	HieCoAtt-QI	MRR	57.88	# 9	See all
			Mean Rank	5.84	# 18	See all
			R@1	43.51	# 18	See all
			R@10	83.96	# 18	See all
			R@5	74.49	# 18	See all

Methods

Add Remove

1x1 Convolution • Average Pooling • Batch Normalization • Bottleneck Residual Block • Convolution • Global Average Pooling • Kaiming Initialization • Max Pooling • ReLU • Residual Block • Residual Connection • ResNet

Edit Social Preview

Hierarchical Question-Image Co-Attention for Visual Question Answering

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit