TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Captioning	Flickr30k Captions test	VL-T5	CIDEr	2.6	# 7
Image Captioning	Flickr30k Captions test	VL-T5	SPICE	2.0	# 5
Image Captioning	nocaps val	VL-T5	CIDEr	4.4	# 3
Image Captioning	nocaps val	VL-T5	SPICE	5.3	# 3
Visual Question Answering (VQA)	VCR (Q-AR) test	VL-T5	Accuracy	58.9	# 6
Visual Question Answering (VQA)	VCR (QA-R) test	VL-T5	Accuracy	77.8	# 7
Visual Question Answering (VQA)	VCR (Q-A) test	VL-T5	Accuracy	75.3	# 8

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/unifying-vision-and-language-tasks-via-text/image-captioning-on-nocaps-val)](https://paperswithcode.com/sota/image-captioning-on-nocaps-val?p=unifying-vision-and-language-tasks-via-text)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/unifying-vision-and-language-tasks-via-text/image-captioning-on-flickr30k-captions-test)](https://paperswithcode.com/sota/image-captioning-on-flickr30k-captions-test?p=unifying-vision-and-language-tasks-via-text)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/unifying-vision-and-language-tasks-via-text/visual-question-answering-on-vcr-q-ar-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-ar-test?p=unifying-vision-and-language-tasks-via-text)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/unifying-vision-and-language-tasks-via-text/visual-question-answering-on-vcr-qa-r-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-qa-r-test?p=unifying-vision-and-language-tasks-via-text)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/unifying-vision-and-language-tasks-via-text/visual-question-answering-on-vcr-q-a-test)](https://paperswithcode.com/sota/visual-question-answering-on-vcr-q-a-test?p=unifying-vision-and-language-tasks-via-text)`

Unifying Vision-and-Language Tasks via Text Generation

4 Feb 2021 · Jaemin Cho, Jie Lei, Hao Tan, Mohit Bansal ·

Existing methods for vision-and-language learning typically require designing task-specific architectures and objectives for each task. For example, a multi-label answer classifier for visual question answering, a region scorer for referring expression comprehension, and a language decoder for image captioning, etc. To alleviate these hassles, in this work, we propose a unified framework that learns different tasks in a single architecture with the same language modeling objective, i.e., multimodal conditional text generation, where our models learn to generate labels in text based on the visual and textual inputs. On 7 popular vision-and-language benchmarks, including visual question answering, referring expression comprehension, visual commonsense reasoning, most of which have been previously modeled as discriminative tasks, our generative approach (with a single unified architecture) reaches comparable performance to recent task-specific state-of-the-art vision-and-language models. Moreover, our generative approach shows better generalization ability on questions that have rare answers. Also, we show that our framework allows multi-task learning in a single architecture with a single set of parameters, achieving similar performance to separately optimized single-task models. Our code is publicly available at: https://github.com/j-min/VL-T5

PDF Abstract

Code

Add Remove Mark official

j-min/VL-T5 official

↳ Quickstart in

Colab

Replicate

351

mitvis/vistext

Tasks

Add Remove

Conditional Text Generation

Image Captioning

Language Modelling

Multi-Task Learning

Question Answering

Referring Expression

Referring Expression Comprehension

Text Generation

Visual Commonsense Reasoning

Visual Question Answering

Visual Question Answering (VQA)

Datasets

MS COCO

Visual Genome

Flickr30k

GQA

COCO Captions

VCR

NoCaps Multi30K

Visual7W

Results from the Paper

Edit

Ranked #3 on Image Captioning on nocaps val

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Captioning	Flickr30k Captions test	VL-T5	CIDEr	2.6	# 7	Compare
Image Captioning	Flickr30k Captions test	VL-T5	SPICE	2.0	# 5	Compare
Image Captioning	nocaps val	VL-T5	CIDEr	4.4	# 3	Compare
Image Captioning	nocaps val	VL-T5	SPICE	5.3	# 3	Compare
Visual Question Answering (VQA)	VCR (Q-AR) test	VL-T5	Accuracy	58.9	# 6	Compare
Visual Question Answering (VQA)	VCR (QA-R) test	VL-T5	Accuracy	77.8	# 7	Compare
Visual Question Answering (VQA)	VCR (Q-A) test	VL-T5	Accuracy	75.3	# 8	Compare

Methods

Add Remove

VL-T5

Edit Social Preview

Unifying Vision-and-Language Tasks via Text Generation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove