Images

Visual Genome

Introduced by Krishna et al. in Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations

Visual Genome contains Visual Question Answering data in a multi-choice setting. It consists of 101,174 images from MSCOCO with 1.7 million QA pairs, 17 questions per image on average. Compared to the Visual Question Answering dataset, Visual Genome represents a more balanced distribution over 6 question types: What, Where, When, Who, Why and How. The Visual Genome dataset also presents 108K images with densely annotated objects, attributes and relationships.

Source: RaAM: A Relation-aware Attention Model for Visual Question Answering

Homepage

Benchmarks

Add a new result Link an existing benchmark

Task	Dataset Variant	Best Model
Unbiased Scene Graph Generation	Visual Genome	IETrans
Scene Graph Generation	Visual Genome	SpeaQ
Scene Graph Classification	Visual Genome	CAME
Layout-to-Image Generation	Visual Genome 128x128	LayoutDiffusion
Multi-label Image Recognition with Partial Labels	Visual Genome	SARB
Predicate Classification	Visual Genome	IETrans
Layout-to-Image Generation	Visual Genome 64x64	OC-GAN
Layout-to-Image Generation	Visual Genome 256x256	LayoutDiffusion
Dense Captioning	Visual Genome	ControlCap
Scene Graph Detection	Visual Genome	CAME
Phrase Grounding	Visual Genome	GbS VG
Object Detection	Visual Genome	AP
Image Generation from Scene Graphs	Visual Genome 64x64	MIGS
Bidirectional Relationship Classification	Visual Genome	LOGIN
Visual Question Answering (VQA)	Visual Genome (subjects)	CMN
Visual Relationship Detection	Visual Genome	PEVL
Unsupervised semantic parsing	VG graph-text	GT-BT
Visual Question Answering (VQA)	Visual Genome (pairs)	CMN
Unsupervised KG-to-Text Generation	VG graph-text	GT-BT