TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Captioning	nocaps-val-in-domain	Enc-Dec	CIDEr	92.6	# 11
Image Captioning	nocaps-val-in-domain	Enc-Dec	SPICE	12.5	# 10
Image Captioning	nocaps-val-in-domain	Enc-Dec	Pre-train (#images)	15M	# 7
Image Captioning	nocaps-val-near-domain	Enc-Dec	CIDEr	88.3	# 10
Image Captioning	nocaps-val-near-domain	Enc-Dec	SPICE	12.1	# 9
Image Captioning	nocaps-val-out-domain	Enc-Dec	CIDEr	94.5	# 9
Image Captioning	nocaps-val-out-domain	Enc-Dec	SPICE	11.9	# 9
Image Captioning	nocaps-val-overall	Enc-Dec	CIDEr	90.2	# 10
Image Captioning	nocaps-val-overall	Enc-Dec	SPICE	12.1	# 9

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/conceptual-12m-pushing-web-scale-image-text/image-captioning-on-nocaps-val-out-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-out-domain?p=conceptual-12m-pushing-web-scale-image-text)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/conceptual-12m-pushing-web-scale-image-text/image-captioning-on-nocaps-val-near-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-near-domain?p=conceptual-12m-pushing-web-scale-image-text)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/conceptual-12m-pushing-web-scale-image-text/image-captioning-on-nocaps-val-overall)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-overall?p=conceptual-12m-pushing-web-scale-image-text)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/conceptual-12m-pushing-web-scale-image-text/image-captioning-on-nocaps-val-in-domain)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val-in-domain?p=conceptual-12m-pushing-web-scale-image-text)`

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

CVPR 2021 · Soravit Changpinyo, Piyush Sharma, Nan Ding, Radu Soricut ·

The availability of large-scale image captioning and visual question answering datasets has contributed significantly to recent successes in vision-and-language pre-training. However, these datasets are often collected with overrestrictive requirements inherited from their original target tasks (e.g., image caption generation), which limit the resulting dataset scale and diversity. We take a step further in pushing the limits of vision-and-language pre-training data by relaxing the data collection pipeline used in Conceptual Captions 3M (CC3M) [Sharma et al. 2018] and introduce the Conceptual 12M (CC12M), a dataset with 12 million image-text pairs specifically meant to be used for vision-and-language pre-training. We perform an analysis of this dataset and benchmark its effectiveness against CC3M on multiple downstream tasks with an emphasis on long-tail visual recognition. Our results clearly illustrate the benefit of scaling up pre-training data for vision-and-language tasks, as indicated by the new state-of-the-art results on both the nocaps and Conceptual Captions benchmarks.

PDF Abstract CVPR 2021 PDF CVPR 2021 Abstract

Code

Add Remove Mark official

google-research-datasets/conceptual… official

322

facebookresearch/meru

110

gicheonkang/gst-visdial

Tasks

Add Remove

Caption Generation

Image Captioning

Question Answering

Visual Question Answering

Visual Question Answering (VQA)

Datasets

Introduced in the Paper:

CC12M

Used in the Paper:

MS COCO

Visual Question Answering

Visual Genome

Flickr30k

Conceptual Captions

COCO Captions

NoCaps

Localized Narratives

Results from the Paper

Edit

Ranked #9 on Image Captioning on nocaps-val-out-domain

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Captioning	nocaps-val-in-domain	Enc-Dec	CIDEr	92.6	# 11	Compare
			SPICE	12.5	# 10	Compare
			Pre-train (#images)	15M	# 7	Compare
Image Captioning	nocaps-val-near-domain	Enc-Dec	CIDEr	88.3	# 10	Compare
Image Captioning	nocaps-val-near-domain	Enc-Dec	SPICE	12.1	# 9	Compare
Image Captioning	nocaps-val-out-domain	Enc-Dec	CIDEr	94.5	# 9	Compare
Image Captioning	nocaps-val-out-domain	Enc-Dec	SPICE	11.9	# 9	Compare
Image Captioning	nocaps-val-overall	Enc-Dec	CIDEr	90.2	# 10	Compare
Image Captioning	nocaps-val-overall	Enc-Dec	SPICE	12.1	# 9	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove