TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semantic Segmentation	ADE20K	BEiT-3	Validation mIoU	62.8	# 4
Semantic Segmentation	ADE20K	BEiT-3	Params (M)	1900	# 1
Semantic Segmentation	ADE20K val	BEiT-3	mIoU	62.8	# 1
Cross-Modal Retrieval	COCO 2014	BEiT-3	Image-to-text R@1	84.8	# 1
Cross-Modal Retrieval	COCO 2014	BEiT-3	Image-to-text R@10	98.3	# 4
Cross-Modal Retrieval	COCO 2014	BEiT-3	Image-to-text R@5	96.5	# 1
Cross-Modal Retrieval	COCO 2014	BEiT-3	Text-to-image R@1	67.2	# 4
Cross-Modal Retrieval	COCO 2014	BEiT-3	Text-to-image R@10	87.7	# 18
Cross-Modal Retrieval	COCO 2014	BEiT-3	Text-to-image R@5	92.8	# 1
Instance Segmentation	COCO test-dev	BEiT-3	mask AP	54.8	# 4
Object Detection	COCO test-dev	BEiT-3	box mAP	63.7	# 13
Cross-Modal Retrieval	Flickr30k	BEiT-3	Image-to-text R@1	98.0	# 3
Cross-Modal Retrieval	Flickr30k	BEiT-3	Image-to-text R@10	100.0	# 1
Cross-Modal Retrieval	Flickr30k	BEiT-3	Image-to-text R@5	100.0	# 1
Cross-Modal Retrieval	Flickr30k	BEiT-3	Text-to-image R@1	90.3	# 5
Cross-Modal Retrieval	Flickr30k	BEiT-3	Text-to-image R@10	99.5	# 2
Cross-Modal Retrieval	Flickr30k	BEiT-3	Text-to-image R@5	98.7	# 2
Zero-Shot Cross-Modal Retrieval	Flickr30k	BEiT-3	Image-to-text R@1	94.9	# 2
Zero-Shot Cross-Modal Retrieval	Flickr30k	BEiT-3	Image-to-text R@5	99.9	# 1
Zero-Shot Cross-Modal Retrieval	Flickr30k	BEiT-3	Image-to-text R@10	100.0	# 1
Zero-Shot Cross-Modal Retrieval	Flickr30k	BEiT-3	Text-to-image R@1	81.5	# 5
Zero-Shot Cross-Modal Retrieval	Flickr30k	BEiT-3	Text-to-image R@5	95.6	# 6
Zero-Shot Cross-Modal Retrieval	Flickr30k	BEiT-3	Text-to-image R@10	97.8	# 6
Visual Reasoning	NLVR2 Dev	BEiT-3	Accuracy	91.51	# 1
Visual Reasoning	NLVR2 Test	BEiT-3	Accuracy	92.58	# 1
Visual Question Answering (VQA)	VQA v2 test-dev	BEiT-3	Accuracy	84.19	# 2
Visual Question Answering (VQA)	VQA v2 test-std	BEiT-3	overall	84.03	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/semantic-segmentation-on-ade20k-val)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k-val?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/visual-reasoning-on-nlvr2-dev)](https://paperswithcode.com/sota/visual-reasoning-on-nlvr2-dev?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/visual-reasoning-on-nlvr2-test)](https://paperswithcode.com/sota/visual-reasoning-on-nlvr2-test?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/visual-question-answering-on-vqa-v2-test-std)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-std?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/zero-shot-cross-modal-retrieval-on-flickr30k)](https://paperswithcode.com/sota/zero-shot-cross-modal-retrieval-on-flickr30k?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/visual-question-answering-on-vqa-v2-test-dev)](https://paperswithcode.com/sota/visual-question-answering-on-vqa-v2-test-dev?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/cross-modal-retrieval-on-flickr30k)](https://paperswithcode.com/sota/cross-modal-retrieval-on-flickr30k?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/semantic-segmentation-on-ade20k)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/cross-modal-retrieval-on-coco-2014)](https://paperswithcode.com/sota/cross-modal-retrieval-on-coco-2014?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/instance-segmentation-on-coco)](https://paperswithcode.com/sota/instance-segmentation-on-coco?p=image-as-a-foreign-language-beit-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/image-as-a-foreign-language-beit-pretraining/object-detection-on-coco)](https://paperswithcode.com/sota/object-detection-on-coco?p=image-as-a-foreign-language-beit-pretraining)`

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

22 Aug 2022 · Wenhui Wang, Hangbo Bao, Li Dong, Johan Bjorck, Zhiliang Peng, Qiang Liu, Kriti Aggarwal, Owais Khan Mohammed, Saksham Singhal, Subhojit Som, Furu Wei ·

A big convergence of language, vision, and multimodal pretraining is emerging. In this work, we introduce a general-purpose multimodal foundation model BEiT-3, which achieves state-of-the-art transfer performance on both vision and vision-language tasks. Specifically, we advance the big convergence from three aspects: backbone architecture, pretraining task, and model scaling up. We introduce Multiway Transformers for general-purpose modeling, where the modular architecture enables both deep fusion and modality-specific encoding. Based on the shared backbone, we perform masked "language" modeling on images (Imglish), texts (English), and image-text pairs ("parallel sentences") in a unified manner. Experimental results show that BEiT-3 obtains state-of-the-art performance on object detection (COCO), semantic segmentation (ADE20K), image classification (ImageNet), visual reasoning (NLVR2), visual question answering (VQAv2), image captioning (COCO), and cross-modal retrieval (Flickr30K, COCO).

PDF Abstract

Code

Add Remove Mark official

microsoft/unilm official

18,257

lyan62/data-curation

Tasks

Add Remove

Cross-Modal Retrieval

Image Captioning

Image Classification

Instance Segmentation

Language Modelling

Masked Language Modeling

Object Detection

Question Answering

Retrieval

Semantic Segmentation

Visual Question Answering

Visual Question Answering (VQA)

Visual Reasoning

Zero-Shot Cross-Modal Retrieval

Datasets

MS COCO

Visual Genome

ADE20K ImageNet-1K

Flickr30k

Visual Question Answering v2.0

BookCorpus

CC12M

NLVR JFT-3B

Results from the Paper

Add Remove

Ranked #1 on Visual Reasoning on NLVR2 Test

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semantic Segmentation	ADE20K	BEiT-3	Validation mIoU	62.8	# 4	Compare
Semantic Segmentation	ADE20K	BEiT-3	Params (M)	1900	# 1	Compare
Semantic Segmentation	ADE20K val	BEiT-3	mIoU	62.8	# 1	Compare
Cross-Modal Retrieval	COCO 2014	BEiT-3	Image-to-text R@1	84.8	# 1	Compare
			Image-to-text R@10	98.3	# 4	Compare
			Image-to-text R@5	96.5	# 1	Compare
			Text-to-image R@1	67.2	# 4	Compare
			Text-to-image R@10	87.7	# 18	Compare
			Text-to-image R@5	92.8	# 1	Compare
Instance Segmentation	COCO test-dev	BEiT-3	mask AP	54.8	# 4	Compare
Object Detection	COCO test-dev	BEiT-3	box mAP	63.7	# 13	Compare
Cross-Modal Retrieval	Flickr30k	BEiT-3	Image-to-text R@1	98.0	# 3	Compare
			Image-to-text R@10	100.0	# 1	Compare
			Image-to-text R@5	100.0	# 1	Compare
			Text-to-image R@1	90.3	# 5	Compare
			Text-to-image R@10	99.5	# 2	Compare
			Text-to-image R@5	98.7	# 2	Compare
Zero-Shot Cross-Modal Retrieval	Flickr30k	BEiT-3	Image-to-text R@1	94.9	# 2	Compare
			Image-to-text R@5	99.9	# 1	Compare
			Image-to-text R@10	100.0	# 1	Compare
			Text-to-image R@1	81.5	# 5	Compare
			Text-to-image R@5	95.6	# 6	Compare
			Text-to-image R@10	97.8	# 6	Compare
Visual Reasoning	NLVR2 Dev	BEiT-3	Accuracy	91.51	# 1	Compare
Visual Reasoning	NLVR2 Test	BEiT-3	Accuracy	92.58	# 1	Compare
Visual Question Answering (VQA)	VQA v2 test-dev	BEiT-3	Accuracy	84.19	# 2	Compare
Visual Question Answering (VQA)	VQA v2 test-std	BEiT-3	overall	84.03	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove