TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	AVA v2.2	MaskFeat (Kinetics-600 pretrain, MViT-L)	mAP	39.8	# 8
Self-Supervised Image Classification	ImageNet (finetuned)	MaskFeat (ViT-L)	Number of Params	307M	# 13
Self-Supervised Image Classification	ImageNet (finetuned)	MaskFeat (ViT-L)	Top 1 Accuracy	85.7%	# 21
Action Classification	Kinetics-400	MaskFeat (no extra data, MViT-L)	Acc@1	86.7	# 39
Action Classification	Kinetics-400	MaskFeat (no extra data, MViT-L)	Acc@5	97.3	# 27
Action Classification	Kinetics-400	MaskFeat (K600, MViT-L)	Acc@1	87.0	# 36
Action Classification	Kinetics-400	MaskFeat (K600, MViT-L)	Acc@5	97.4	# 24
Action Classification	Kinetics-600	MaskFeat (no extra data, MViT-L)	Top-1 Accuracy	88.3	# 20
Action Classification	Kinetics-600	MaskFeat (no extra data, MViT-L)	Top-5 Accuracy	98.0	# 9
Action Classification	Kinetics-700	MaskFeat (no extra data, MViT-L)	Top-1 Accuracy	80.4	# 12
Action Classification	Kinetics-700	MaskFeat (no extra data, MViT-L)	Top-5 Accuracy	95.7	# 5
Action Recognition	Something-Something V2	MaskFeat (Kinetics600 pretrain, MViT-L)	Top-1 Accuracy	75.0	# 11
Action Recognition	Something-Something V2	MaskFeat (Kinetics600 pretrain, MViT-L)	Top-5 Accuracy	95.0	# 6
Action Recognition	Something-Something V2	MaskFeat (Kinetics600 pretrain, MViT-L)	Parameters	218	# 19
Action Recognition	Something-Something V2	MaskFeat (Kinetics600 pretrain, MViT-L)	GFLOPs	2828*3	# 6

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-feature-prediction-for-self-supervised/action-recognition-on-ava-v2-2)](https://paperswithcode.com/sota/action-recognition-on-ava-v2-2?p=masked-feature-prediction-for-self-supervised)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-feature-prediction-for-self-supervised/action-recognition-in-videos-on-something)](https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=masked-feature-prediction-for-self-supervised)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-feature-prediction-for-self-supervised/action-classification-on-kinetics-700)](https://paperswithcode.com/sota/action-classification-on-kinetics-700?p=masked-feature-prediction-for-self-supervised)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-feature-prediction-for-self-supervised/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=masked-feature-prediction-for-self-supervised)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-feature-prediction-for-self-supervised/self-supervised-image-classification-on-1)](https://paperswithcode.com/sota/self-supervised-image-classification-on-1?p=masked-feature-prediction-for-self-supervised)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/masked-feature-prediction-for-self-supervised/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=masked-feature-prediction-for-self-supervised)`

Masked Feature Prediction for Self-Supervised Visual Pre-Training

CVPR 2022 · Chen Wei, Haoqi Fan, Saining Xie, Chao-yuan Wu, Alan Yuille, Christoph Feichtenhofer ·

We present Masked Feature Prediction (MaskFeat) for self-supervised pre-training of video models. Our approach first randomly masks out a portion of the input sequence and then predicts the feature of the masked regions. We study five different types of features and find Histograms of Oriented Gradients (HOG), a hand-crafted feature descriptor, works particularly well in terms of both performance and efficiency. We observe that the local contrast normalization in HOG is essential for good results, which is in line with earlier work using HOG for visual recognition. Our approach can learn abundant visual knowledge and drive large-scale Transformer-based models. Without using extra model weights or supervision, MaskFeat pre-trained on unlabeled videos achieves unprecedented results of 86.7% with MViT-L on Kinetics-400, 88.3% on Kinetics-600, 80.4% on Kinetics-700, 39.8 mAP on AVA, and 75.0% on SSv2. MaskFeat further generalizes to image input, which can be interpreted as a video with a single frame and obtains competitive results on ImageNet.

PDF Abstract CVPR 2022 PDF CVPR 2022 Abstract

Code

Add Remove Mark official

facebookresearch/SlowFast official

6,274

open-mmlab/mmselfsup

3,083

Westlake-AI/openmixup

570

mx-mark/videotransformer-pytorch

257

mx-mark/dmjd

Tasks

Add Remove

Action Classification

Action Recognition

Self-Supervised Image Classification

Datasets

ImageNet

Kinetics

Kinetics 400

Something-Something V2

Kinetics-600

JFT-300M

AVA

Kinetics-700

Results from the Paper

Edit

Ranked #8 on Action Recognition on AVA v2.2 (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	AVA v2.2	MaskFeat (Kinetics-600 pretrain, MViT-L)	mAP	39.8	# 8	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MaskFeat (ViT-L)	Number of Params	307M	# 13	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	MaskFeat (ViT-L)	Top 1 Accuracy	85.7%	# 21	Compare
Action Classification	Kinetics-400	MaskFeat (no extra data, MViT-L)	Acc@1	86.7	# 39	Compare
Action Classification	Kinetics-400	MaskFeat (no extra data, MViT-L)	Acc@5	97.3	# 27	Compare
Action Classification	Kinetics-400	MaskFeat (K600, MViT-L)	Acc@1	87.0	# 36	Compare
Action Classification	Kinetics-400	MaskFeat (K600, MViT-L)	Acc@5	97.4	# 24	Compare
Action Classification	Kinetics-600	MaskFeat (no extra data, MViT-L)	Top-1 Accuracy	88.3	# 20	Compare
Action Classification	Kinetics-600	MaskFeat (no extra data, MViT-L)	Top-5 Accuracy	98.0	# 9	Compare
Action Classification	Kinetics-700	MaskFeat (no extra data, MViT-L)	Top-1 Accuracy	80.4	# 12	Compare
Action Classification	Kinetics-700	MaskFeat (no extra data, MViT-L)	Top-5 Accuracy	95.7	# 5	Compare
Action Recognition	Something-Something V2	MaskFeat (Kinetics600 pretrain, MViT-L)	Top-1 Accuracy	75.0	# 11	Compare
			Top-5 Accuracy	95.0	# 6	Compare
			Parameters	218	# 19	Compare
			GFLOPs	2828*3	# 6	Compare

Methods

Add Remove

Local Contrast Normalization

Edit Social Preview

Masked Feature Prediction for Self-Supervised Visual Pre-Training

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove