Visual7W

Introduced by Zhu et al. in Visual7W: Grounded Question Answering in Images

Visual7W is a large-scale visual question answering (QA) dataset, with object-level groundings and multimodal answers. Each question starts with one of the seven Ws, what, where, when, who, why, how and which. It is collected from 47,300 COCO images and it has 327,929 QA pairs, together with 1,311,756 human-generated multiple-choices and 561,459 object groundings from 36,579 categories.

Source: https://github.com/yukezhu/visual7w-toolkit

Homepage

Benchmarks

Add a new result Link an existing benchmark

Trend	Task	Dataset Variant	Best Model	Paper	Code
	Visual Question Answering (VQA)	Visual7W	CMN

Papers

Paper	Code	Results	Date	Stars

Dataset Loaders

Add Remove

No data loaders found. You can submit your data loader here.

Tasks

Visual Question Answering (VQA)
Image Comprehension

Similar Datasets

TDIUC

PointQA

Visual Madlibs

DAQUAR

Source: http://ai.stanford.edu/~yukez/visual7w/.

Usage

License

Unknown

Modalities

Images
Texts

Visual7W

Benchmarks Edit Add a new result Link an existing benchmark

Papers

Dataset Loaders Edit Add Remove

Tasks Edit