TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	AVA v2.2	VideoMAE (K700 pretrain, ViT-L, 16x4)	mAP	36.1	# 16
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain+finetune, ViT-B, 16x4)	mAP	31.8	# 23
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain+finetune, ViT-H, 16x4)	mAP	39.5	# 10
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain, ViT-H, 16x4)	mAP	36.5	# 15
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain, ViT-B, 16x4)	mAP	26.7	# 33
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain, ViT-L, 16x4)	mAP	34.3	# 19
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain+finetune, ViT-L, 16x4)	mAP	37.8	# 13
Action Recognition	AVA v2.2	VideoMAE (K700 pretrain+finetune, ViT-L, 16x4)	mAP	39.3	# 11
Self-Supervised Action Recognition	HMDB51	VideoMAE	Top-1 Accuracy	73.3	# 5
Self-Supervised Action Recognition	HMDB51	VideoMAE	Pre-Training Dataset	Kinetics400	# 1
Self-Supervised Action Recognition	HMDB51	VideoMAE	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51	VideoMAE(no extra data)	Top-1 Accuracy	62.6	# 22
Self-Supervised Action Recognition	HMDB51	VideoMAE(no extra data)	Pre-Training Dataset	no extra data	# 1
Self-Supervised Action Recognition	HMDB51	VideoMAE(no extra data)	Frozen	false	# 1
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-H, 32x320x320)	Acc@1	87.4	# 30
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-H, 32x320x320)	Acc@5	97.6	# 18
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-H)	Acc@1	86.6	# 40
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-H)	Acc@5	97.1	# 31
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-B, 16x4)	Acc@1	81.5	# 75
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-B, 16x4)	Acc@5	95.1	# 53
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-L, 16x4)	Acc@1	85.2	# 51
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-L, 16x4)	Acc@5	96.8	# 36
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-L, 32x320x320)	Acc@1	86.1	# 44
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-L, 32x320x320)	Acc@5	97.3	# 27
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 32x2)	Top-1 Accuracy	75.4	# 9
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 32x2)	Top-5 Accuracy	95.2	# 4
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 32x2)	Parameters	305	# 16
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 32x2)	GFLOPs	1436x3	# 6
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-B, 16frame)	Top-1 Accuracy	70.8	# 35
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-B, 16frame)	Top-5 Accuracy	92.4	# 28
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-B, 16frame)	Parameters	87	# 25
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-B, 16frame)	GFLOPs	180x6	# 6
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 16frame)	Top-1 Accuracy	74.3	# 15
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 16frame)	Top-5 Accuracy	94.6	# 8
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 16frame)	Parameters	305	# 16
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 16frame)	GFLOPs	597x6	# 6
Self-Supervised Action Recognition	UCF101	VideoMAE	3-fold Accuracy	96.1	# 6
Self-Supervised Action Recognition	UCF101	VideoMAE	Pre-Training Dataset	Kinetics400	# 1
Self-Supervised Action Recognition	UCF101	VideoMAE	Frozen	false	# 1
Self-Supervised Action Recognition	UCF101	VideoMAE(no extra data)	3-fold Accuracy	91.3	# 20
Self-Supervised Action Recognition	UCF101	VideoMAE(no extra data)	Pre-Training Dataset	no extra data	# 1
Self-Supervised Action Recognition	UCF101	VideoMAE(no extra data)	Frozen	false	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/videomae-masked-autoencoders-are-data-1/self-supervised-action-recognition-on-hmdb51)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-hmdb51?p=videomae-masked-autoencoders-are-data-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/videomae-masked-autoencoders-are-data-1/self-supervised-action-recognition-on-ucf101)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-ucf101?p=videomae-masked-autoencoders-are-data-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/videomae-masked-autoencoders-are-data-1/action-recognition-in-videos-on-something)](https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=videomae-masked-autoencoders-are-data-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/videomae-masked-autoencoders-are-data-1/action-recognition-on-ava-v2-2)](https://paperswithcode.com/sota/action-recognition-on-ava-v2-2?p=videomae-masked-autoencoders-are-data-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/videomae-masked-autoencoders-are-data-1/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=videomae-masked-autoencoders-are-data-1)`

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

23 Mar 2022 · Zhan Tong, Yibing Song, Jue Wang, LiMin Wang ·

Pre-training video transformers on extra large-scale datasets is generally required to achieve premier performance on relatively small datasets. In this paper, we show that video masked autoencoders (VideoMAE) are data-efficient learners for self-supervised video pre-training (SSVP). We are inspired by the recent ImageMAE and propose customized video tube masking with an extremely high ratio. This simple design makes video reconstruction a more challenging self-supervision task, thus encouraging extracting more effective video representations during this pre-training process. We obtain three important findings on SSVP: (1) An extremely high proportion of masking ratio (i.e., 90% to 95%) still yields favorable performance of VideoMAE. The temporally redundant video content enables a higher masking ratio than that of images. (2) VideoMAE achieves impressive results on very small datasets (i.e., around 3k-4k videos) without using any extra data. (3) VideoMAE shows that data quality is more important than data quantity for SSVP. Domain shift between pre-training and target datasets is an important issue. Notably, our VideoMAE with the vanilla ViT can achieve 87.4% on Kinetics-400, 75.4% on Something-Something V2, 91.3% on UCF101, and 62.6% on HMDB51, without using any extra data. Code is available at https://github.com/MCG-NJU/VideoMAE.

PDF Abstract

Code

Add Remove Mark official

MCG-NJU/VideoMAE official

↳ Quickstart in

Colab

Spaces

1,211

MCG-NJU/VideoMAE-Action-Detection official

huggingface/transformers

124,889

innat/VideoMAE

↳ Quickstart in

Colab

Spaces

Tasks

Add Remove

Action Classification

Action Recognition

Self-Supervised Action Recognition

Video Reconstruction

Video Understanding

Datasets

UCF101

Kinetics ImageNet-1K

HMDB51

Kinetics 400

Something-Something V2

AVA

Results from the Paper

Edit

Ranked #5 on Self-Supervised Action Recognition on HMDB51

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	AVA v2.2	VideoMAE (K700 pretrain, ViT-L, 16x4)	mAP	36.1	# 16	Compare
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain+finetune, ViT-B, 16x4)	mAP	31.8	# 23	Compare
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain+finetune, ViT-H, 16x4)	mAP	39.5	# 10	Compare
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain, ViT-H, 16x4)	mAP	36.5	# 15	Compare
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain, ViT-B, 16x4)	mAP	26.7	# 33	Compare
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain, ViT-L, 16x4)	mAP	34.3	# 19	Compare
Action Recognition	AVA v2.2	VideoMAE (K400 pretrain+finetune, ViT-L, 16x4)	mAP	37.8	# 13	Compare
Action Recognition	AVA v2.2	VideoMAE (K700 pretrain+finetune, ViT-L, 16x4)	mAP	39.3	# 11	Compare
Self-Supervised Action Recognition	HMDB51	VideoMAE	Top-1 Accuracy	73.3	# 5	Compare
			Pre-Training Dataset	Kinetics400	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	HMDB51	VideoMAE(no extra data)	Top-1 Accuracy	62.6	# 22	Compare
			Pre-Training Dataset	no extra data	# 1	Compare
			Frozen	false	# 1	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-H, 32x320x320)	Acc@1	87.4	# 30	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-H, 32x320x320)	Acc@5	97.6	# 18	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-H)	Acc@1	86.6	# 40	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-H)	Acc@5	97.1	# 31	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-B, 16x4)	Acc@1	81.5	# 75	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-B, 16x4)	Acc@5	95.1	# 53	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-L, 16x4)	Acc@1	85.2	# 51	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-L, 16x4)	Acc@5	96.8	# 36	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-L, 32x320x320)	Acc@1	86.1	# 44	Compare
Action Classification	Kinetics-400	VideoMAE (no extra data, ViT-L, 32x320x320)	Acc@5	97.3	# 27	Compare
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 32x2)	Top-1 Accuracy	75.4	# 9	Compare
			Top-5 Accuracy	95.2	# 4	Compare
			Parameters	305	# 16	Compare
			GFLOPs	1436x3	# 6	Compare
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-B, 16frame)	Top-1 Accuracy	70.8	# 35	Compare
			Top-5 Accuracy	92.4	# 28	Compare
			Parameters	87	# 25	Compare
			GFLOPs	180x6	# 6	Compare
Action Recognition	Something-Something V2	VideoMAE (no extra data, ViT-L, 16frame)	Top-1 Accuracy	74.3	# 15	Compare
			Top-5 Accuracy	94.6	# 8	Compare
			Parameters	305	# 16	Compare
			GFLOPs	597x6	# 6	Compare
Self-Supervised Action Recognition	UCF101	VideoMAE	3-fold Accuracy	96.1	# 6	Compare
			Pre-Training Dataset	Kinetics400	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	UCF101	VideoMAE(no extra data)	3-fold Accuracy	91.3	# 20	Compare
			Pre-Training Dataset	no extra data	# 1	Compare
			Frozen	false	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove