TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semantic Segmentation	ADE20K	MAE (ViT-B, UperNet)	Validation mIoU	48.1	# 142
Semantic Segmentation	ADE20K	MAE (ViT-L, UperNet)	Validation mIoU	53.6	# 72
Object Detection	COCO minival	MAE (ViT-B, Mask R-CNN)	box AP	50.3	# 75
Object Detection	COCO minival	MAE (ViT-L, Mask R-CNN)	box AP	53.3	# 59
Image Classification	ImageNet	MAE (ViT-H, 448)	Top 1 Accuracy	87.8%	# 75
Image Classification	ImageNet	MAE (ViT-H, 448)	Number of params	656M	# 946
Image Classification	ImageNet	MAE (ViT-H)	Top 1 Accuracy	86.9%	# 115
Image Classification	ImageNet	MAE (ViT-L)	Top 1 Accuracy	85.9%	# 183
Image Classification	ImageNet	MAE (ViT-L)	Top 1 Accuracy	83.6%	# 378
Self-Supervised Image Classification	ImageNet	MAE (ViT-B)	Top 1 Accuracy	68.0%	# 101
Self-Supervised Image Classification	ImageNet	MAE (ViT-H)	Top 1 Accuracy	76.6%	# 56
Self-Supervised Image Classification	ImageNet	MAE (ViT-L)	Top 1 Accuracy	75.8%	# 63
Domain Generalization	ImageNet-A	MAE (ViT-H, 448)	Top-1 accuracy %	76.7	# 6
Domain Generalization	ImageNet-C	MAE (ViT-H)	mean Corruption Error (mCE)	33.8	# 6
Domain Generalization	ImageNet-C	MAE (ViT-H)	Number of params	632M	# 41
Self-Supervised Image Classification	ImageNet (finetuned)	MAE (ViT-H/14)	Top 1 Accuracy	86.9%	# 11
Self-Supervised Image Classification	ImageNet (finetuned)	MAE (ViT-H/14, 448)	Number of Params	632M	# 7
Self-Supervised Image Classification	ImageNet (finetuned)	MAE (ViT-H/14, 448)	Top 1 Accuracy	87.8%	# 7
Domain Generalization	ImageNet-R	MAE (ViT-H, 448)	Top-1 Error Rate	33.5	# 10
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL, mmseg)	mIoU (val)	40.0	# 17
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL, mmseg)	mIoU (test)	40.3	# 14
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL+FT)	mIoU (val)	61.0	# 5
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL+FT)	mIoU (test)	60.2	# 4
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL+FT, mmseg)	mIoU (val)	61.6	# 4
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL+FT, mmseg)	mIoU (test)	61.2	# 3
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL)	mIoU (val)	38.3	# 18
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL)	mIoU (test)	37.0	# 16
Domain Generalization	ImageNet-Sketch	MAE (ViT-H, 448)	Top-1 accuracy	50.9	# 10
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-L/16, fine-tuning)	IN-W Gap	-4.4	# 1
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-L/16, fine-tuning)	Carton Gap	+22	# 1
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-H/14, fine-tuning)	IN-W Gap	-3.5	# 1
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-H/14, fine-tuning)	Carton Gap	+30	# 1
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-B/16, fine-tuning)	IN-W Gap	-4.6	# 1
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-B/16, fine-tuning)	Carton Gap	+24	# 1
Image Classification	iNaturalist	MAE (ViT-H, 448)	Top 1 Accuracy	83.4	# 2
Image Classification	iNaturalist 2018	MAE (ViT-H, 448)	Top-1 Accuracy	86.8%	# 6
Image Classification	iNaturalist 2019	MAE (ViT-H, 448)	Top-1 Accuracy	88.3	# 2
Image Classification	OmniBenchmark	MAE	Average Top-1 Accuracy	30.6	# 21
Image Classification	Places205	MAE (ViT-H, 448)	Top 1 Accuracy	66.8	# 5
Image Classification	Places365-Standard	MAE (ViT-H, 448)	Top 1 Accuracy	60.3	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/out-of-distribution-generalization-on-1)](https://paperswithcode.com/sota/out-of-distribution-generalization-on-1?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/image-classification-on-inaturalist)](https://paperswithcode.com/sota/image-classification-on-inaturalist?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/image-classification-on-inaturalist-2019)](https://paperswithcode.com/sota/image-classification-on-inaturalist-2019?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/image-classification-on-places365-standard)](https://paperswithcode.com/sota/image-classification-on-places365-standard?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/semantic-segmentation-on-imagenet-s)](https://paperswithcode.com/sota/semantic-segmentation-on-imagenet-s?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/image-classification-on-places205)](https://paperswithcode.com/sota/image-classification-on-places205?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/domain-generalization-on-imagenet-a)](https://paperswithcode.com/sota/domain-generalization-on-imagenet-a?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/domain-generalization-on-imagenet-c)](https://paperswithcode.com/sota/domain-generalization-on-imagenet-c?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/image-classification-on-inaturalist-2018)](https://paperswithcode.com/sota/image-classification-on-inaturalist-2018?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/self-supervised-image-classification-on-1)](https://paperswithcode.com/sota/self-supervised-image-classification-on-1?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/domain-generalization-on-imagenet-r)](https://paperswithcode.com/sota/domain-generalization-on-imagenet-r?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/domain-generalization-on-imagenet-sketch)](https://paperswithcode.com/sota/domain-generalization-on-imagenet-sketch?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/image-classification-on-omnibenchmark)](https://paperswithcode.com/sota/image-classification-on-omnibenchmark?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/self-supervised-image-classification-on)](https://paperswithcode.com/sota/self-supervised-image-classification-on?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/object-detection-on-coco-minival)](https://paperswithcode.com/sota/object-detection-on-coco-minival?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/semantic-segmentation-on-ade20k)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k?p=masked-autoencoders-are-scalable-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-autoencoders-are-scalable-vision/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=masked-autoencoders-are-scalable-vision)`

Masked Autoencoders Are Scalable Vision Learners

CVPR 2022 · Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollár, Ross Girshick ·

This paper shows that masked autoencoders (MAE) are scalable self-supervised learners for computer vision. Our MAE approach is simple: we mask random patches of the input image and reconstruct the missing pixels. It is based on two core designs. First, we develop an asymmetric encoder-decoder architecture, with an encoder that operates only on the visible subset of patches (without mask tokens), along with a lightweight decoder that reconstructs the original image from the latent representation and mask tokens. Second, we find that masking a high proportion of the input image, e.g., 75%, yields a nontrivial and meaningful self-supervisory task. Coupling these two designs enables us to train large models efficiently and effectively: we accelerate training (by 3x or more) and improve accuracy. Our scalable approach allows for learning high-capacity models that generalize well: e.g., a vanilla ViT-Huge model achieves the best accuracy (87.8%) among methods that use only ImageNet-1K data. Transfer performance in downstream tasks outperforms supervised pre-training and shows promising scaling behavior.

PDF Abstract CVPR 2022 PDF CVPR 2022 Abstract

Code

Add Remove Mark official

facebookresearch/mae official

↳ Quickstart in

Colab

6,758

open-mmlab/mmselfsup

3,084

lightly-ai/lightly

2,749

keras-team/keras-io

2,645

pengzhiliang/MAE-pytorch

2,530

See all 49 implementations

Tasks

Add Remove

Domain Generalization

Image Classification

Object Detection

Out-of-Distribution Generalization

Self-Supervised Image Classification

Self-Supervised Learning

Semantic Segmentation

Datasets

ImageNet

MS COCO

ADE20K

ImageNet-C

Places205

iNaturalist

ImageNet-R

ImageNet-A

ImageNet-Sketch

Places365

ImageNet-S

OmniBenchmark

ImageNet-W

Results from the Paper

Edit

Ranked #1 on Out-of-Distribution Generalization on ImageNet-W

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semantic Segmentation	ADE20K	MAE (ViT-B, UperNet)	Validation mIoU	48.1	# 142	Compare
Semantic Segmentation	ADE20K	MAE (ViT-L, UperNet)	Validation mIoU	53.6	# 72	Compare
Object Detection	COCO minival	MAE (ViT-B, Mask R-CNN)	box AP	50.3	# 75	Compare
Object Detection	COCO minival	MAE (ViT-L, Mask R-CNN)	box AP	53.3	# 59	Compare
Image Classification	ImageNet	MAE (ViT-H, 448)	Top 1 Accuracy	87.8%	# 75	Compare
Image Classification	ImageNet	MAE (ViT-H, 448)	Number of params	656M	# 946	Compare
Image Classification	ImageNet	MAE (ViT-H)	Top 1 Accuracy	86.9%	# 115	Compare
Image Classification	ImageNet	MAE (ViT-L)	Top 1 Accuracy	85.9%	# 183	Compare
Image Classification	ImageNet	MAE (ViT-L)	Top 1 Accuracy	83.6%	# 378	Compare
Self-Supervised Image Classification	ImageNet	MAE (ViT-B)	Top 1 Accuracy	68.0%	# 101	Compare
Self-Supervised Image Classification	ImageNet	MAE (ViT-H)	Top 1 Accuracy	76.6%	# 56	Compare
Self-Supervised Image Classification	ImageNet	MAE (ViT-L)	Top 1 Accuracy	75.8%	# 63	Compare
Domain Generalization	ImageNet-A	MAE (ViT-H, 448)	Top-1 accuracy %	76.7	# 6	Compare
Domain Generalization	ImageNet-C	MAE (ViT-H)	mean Corruption Error (mCE)	33.8	# 6	Compare
Domain Generalization	ImageNet-C	MAE (ViT-H)	Number of params	632M	# 41	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MAE (ViT-H/14)	Top 1 Accuracy	86.9%	# 11	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MAE (ViT-H/14, 448)	Number of Params	632M	# 7	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MAE (ViT-H/14, 448)	Top 1 Accuracy	87.8%	# 7	Compare
Domain Generalization	ImageNet-R	MAE (ViT-H, 448)	Top-1 Error Rate	33.5	# 10	Compare
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL, mmseg)	mIoU (val)	40.0	# 17	Compare
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL, mmseg)	mIoU (test)	40.3	# 14	Compare
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL+FT)	mIoU (val)	61.0	# 5	Compare
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL+FT)	mIoU (test)	60.2	# 4	Compare
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL+FT, mmseg)	mIoU (val)	61.6	# 4	Compare
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL+FT, mmseg)	mIoU (test)	61.2	# 3	Compare
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL)	mIoU (val)	38.3	# 18	Compare
Semantic Segmentation	ImageNet-S	MAE (ViT-B/16, 224x224, SSL)	mIoU (test)	37.0	# 16	Compare
Domain Generalization	ImageNet-Sketch	MAE (ViT-H, 448)	Top-1 accuracy	50.9	# 10	Compare
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-L/16, fine-tuning)	IN-W Gap	-4.4	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-L/16, fine-tuning)	Carton Gap	+22	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-H/14, fine-tuning)	IN-W Gap	-3.5	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-H/14, fine-tuning)	Carton Gap	+30	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-B/16, fine-tuning)	IN-W Gap	-4.6	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	MAE (ViT-B/16, fine-tuning)	Carton Gap	+24	# 1	Compare
Image Classification	iNaturalist	MAE (ViT-H, 448)	Top 1 Accuracy	83.4	# 2	Compare
Image Classification	iNaturalist 2018	MAE (ViT-H, 448)	Top-1 Accuracy	86.8%	# 6	Compare
Image Classification	iNaturalist 2019	MAE (ViT-H, 448)	Top-1 Accuracy	88.3	# 2	Compare
Image Classification	OmniBenchmark	MAE	Average Top-1 Accuracy	30.6	# 21	Compare
Image Classification	Places205	MAE (ViT-H, 448)	Top 1 Accuracy	66.8	# 5	Compare
Image Classification	Places365-Standard	MAE (ViT-H, 448)	Top 1 Accuracy	60.3	# 3	Compare

Methods

Add Remove

CV-MIM • MAE

Edit Social Preview

Masked Autoencoders Are Scalable Vision Learners

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove