TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	AVA v2.2	MViT-B, 32x3 (Kinetics-500 pretraining)	mAP	27.5	# 28
Action Recognition	AVA v2.2	MViT-B, 16x4 (Kinetics-400 pretraining)	mAP	24.5	# 36
Action Recognition	AVA v2.2	MViT-B, 32x3 (Kinetics-400 pretraining)	mAP	26.8	# 32
Action Recognition	AVA v2.2	MViT-B-24, 32x3 (Kinetics-600 pretraining)	mAP	28.7	# 27
Action Recognition	AVA v2.2	MViT-B, 64x3 (Kinetics-400 pretraining)	mAP	27.3	# 30
Action Recognition	AVA v2.2	MViT-B, 16x4 (Kinetics-600 pretraining)	mAP	26.1	# 35
Action Classification	Charades	MViT-B-24, 32x3 (Kinetics-600 pretraining)	MAP	47.7	# 14
Action Classification	Charades	MViT-B, 32x3 (Kinetics-600 pretraining)	MAP	47.1	# 16
Action Classification	Charades	MViT-B, 16x4 (Kinetics-600 pretraining)	MAP	43.9	# 21
Action Classification	Charades	MViT-B-24, 32x3 (Kinetics-400 pretraining)	MAP	46.3	# 17
Action Classification	Charades	MViT-B, 32x3 (Kinetics-400 pretraining)	MAP	44.3	# 19
Action Classification	Charades	MViT-B, 16x4 (Kinetics-400 pretraining)	MAP	40	# 33
Image Classification	ImageNet	MViT-B-16	Top 1 Accuracy	83.0%	# 437
Image Classification	ImageNet	MViT-B-16	Number of params	37.0M	# 662
Image Classification	ImageNet	MViT-B-24	Top 1 Accuracy	84.8%	# 270
Image Classification	ImageNet	MViT-B-24	Number of params	72.9M	# 791
Action Classification	Kinetics-400	MViT-B, 16x4	Acc@1	78.4	# 119
Action Classification	Kinetics-400	MViT-B, 16x4	Acc@5	93.5	# 91
Action Classification	Kinetics-400	MViT-S	Acc@1	76	# 143
Action Classification	Kinetics-400	MViT-S	Acc@5	92.1	# 107
Action Classification	Kinetics-400	MViT-B, 64x3	Acc@1	81.2	# 79
Action Classification	Kinetics-400	MViT-B, 64x3	Acc@5	95.1	# 53
Action Classification	Kinetics-400	MViT-B, 32x3	Acc@1	80.2	# 96
Action Classification	Kinetics-400	MViT-B, 32x3	Acc@5	94.4	# 70
Action Classification	Kinetics-600	MViT-B, 32x3	Top-1 Accuracy	83.4	# 39
Action Classification	Kinetics-600	MViT-B, 32x3	Top-5 Accuracy	96.3	# 27
Action Classification	Kinetics-600	MViT-B, 16x4	Top-1 Accuracy	82.1	# 44
Action Classification	Kinetics-600	MViT-B, 16x4	Top-5 Accuracy	95.7	# 33
Action Classification	Kinetics-600	MViT-B-24, 32x3	Top-1 Accuracy	83.8	# 36
Action Classification	Kinetics-600	MViT-B-24, 32x3	Top-5 Accuracy	96.3	# 27
Action Recognition	Something-Something V2	MViT-B-24, 32x3	Top-1 Accuracy	68.7	# 48
Action Recognition	Something-Something V2	MViT-B-24, 32x3	Top-5 Accuracy	91.5	# 35
Action Recognition	Something-Something V2	MViT-B-24, 32x3	Parameters	53.2M	# 1
Action Recognition	Something-Something V2	MViT-B-24, 32x3	GFLOPs	236x3	# 6
Action Recognition	Something-Something V2	MViT-B, 32x3(Kinetics600 pretrain)	Top-1 Accuracy	67.8	# 56
Action Recognition	Something-Something V2	MViT-B, 32x3(Kinetics600 pretrain)	Top-5 Accuracy	91.3	# 38
Action Recognition	Something-Something V2	MViT-B, 32x3(Kinetics600 pretrain)	Parameters	36.6	# 32
Action Recognition	Something-Something V2	MViT-B, 32x3(Kinetics600 pretrain)	GFLOPs	170x3	# 6
Action Recognition	Something-Something V2	MViT-B, 16x4	Top-1 Accuracy	66.2	# 81
Action Recognition	Something-Something V2	MViT-B, 16x4	Top-5 Accuracy	90.2	# 61

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multiscale-vision-transformers/action-classification-on-charades)](https://paperswithcode.com/sota/action-classification-on-charades?p=multiscale-vision-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multiscale-vision-transformers/action-recognition-on-ava-v2-2)](https://paperswithcode.com/sota/action-recognition-on-ava-v2-2?p=multiscale-vision-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multiscale-vision-transformers/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=multiscale-vision-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multiscale-vision-transformers/action-recognition-in-videos-on-something)](https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=multiscale-vision-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multiscale-vision-transformers/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=multiscale-vision-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multiscale-vision-transformers/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=multiscale-vision-transformers)`

Multiscale Vision Transformers

ICCV 2021 · Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan, Jitendra Malik, Christoph Feichtenhofer ·

We present Multiscale Vision Transformers (MViT) for video and image recognition, by connecting the seminal idea of multiscale feature hierarchies with transformer models. Multiscale Transformers have several channel-resolution scale stages. Starting from the input resolution and a small channel dimension, the stages hierarchically expand the channel capacity while reducing the spatial resolution. This creates a multiscale pyramid of features with early layers operating at high spatial resolution to model simple low-level visual information, and deeper layers at spatially coarse, but complex, high-dimensional features. We evaluate this fundamental architectural prior for modeling the dense nature of visual signals for a variety of video recognition tasks where it outperforms concurrent vision transformers that rely on large scale external pre-training and are 5-10x more costly in computation and parameters. We further remove the temporal dimension and apply our model for image classification where it outperforms prior work on vision transformers. Code is available at: https://github.com/facebookresearch/SlowFast

PDF Abstract ICCV 2021 PDF ICCV 2021 Abstract

Code

Add Remove Mark official

facebookresearch/SlowFast official

6,273

facebookresearch/pytorchvideo

↳ Quickstart in

Spaces

3,182

towhee-io/towhee

2,991

facebookresearch/hiera

692

facebookresearch/mvit

346

See all 7 implementations

Tasks

Add Remove

Action Classification

Action Recognition

Image Classification

Video Recognition

Datasets

ImageNet

Kinetics

Kinetics 400

Charades

Something-Something V2

Kinetics-600

AVA

Results from the Paper

Edit

Ranked #14 on Action Classification on Charades

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	AVA v2.2	MViT-B, 32x3 (Kinetics-500 pretraining)	mAP	27.5	# 28	Compare
Action Recognition	AVA v2.2	MViT-B, 16x4 (Kinetics-400 pretraining)	mAP	24.5	# 36	Compare
Action Recognition	AVA v2.2	MViT-B, 32x3 (Kinetics-400 pretraining)	mAP	26.8	# 32	Compare
Action Recognition	AVA v2.2	MViT-B-24, 32x3 (Kinetics-600 pretraining)	mAP	28.7	# 27	Compare
Action Recognition	AVA v2.2	MViT-B, 64x3 (Kinetics-400 pretraining)	mAP	27.3	# 30	Compare
Action Recognition	AVA v2.2	MViT-B, 16x4 (Kinetics-600 pretraining)	mAP	26.1	# 35	Compare
Action Classification	Charades	MViT-B-24, 32x3 (Kinetics-600 pretraining)	MAP	47.7	# 14	Compare
Action Classification	Charades	MViT-B, 32x3 (Kinetics-600 pretraining)	MAP	47.1	# 16	Compare
Action Classification	Charades	MViT-B, 16x4 (Kinetics-600 pretraining)	MAP	43.9	# 21	Compare
Action Classification	Charades	MViT-B-24, 32x3 (Kinetics-400 pretraining)	MAP	46.3	# 17	Compare
Action Classification	Charades	MViT-B, 32x3 (Kinetics-400 pretraining)	MAP	44.3	# 19	Compare
Action Classification	Charades	MViT-B, 16x4 (Kinetics-400 pretraining)	MAP	40	# 33	Compare
Image Classification	ImageNet	MViT-B-16	Top 1 Accuracy	83.0%	# 437	Compare
Image Classification	ImageNet	MViT-B-16	Number of params	37.0M	# 662	Compare
Image Classification	ImageNet	MViT-B-24	Top 1 Accuracy	84.8%	# 270	Compare
Image Classification	ImageNet	MViT-B-24	Number of params	72.9M	# 791	Compare
Action Classification	Kinetics-400	MViT-B, 16x4	Acc@1	78.4	# 119	Compare
Action Classification	Kinetics-400	MViT-B, 16x4	Acc@5	93.5	# 91	Compare
Action Classification	Kinetics-400	MViT-S	Acc@1	76	# 143	Compare
Action Classification	Kinetics-400	MViT-S	Acc@5	92.1	# 107	Compare
Action Classification	Kinetics-400	MViT-B, 64x3	Acc@1	81.2	# 79	Compare
Action Classification	Kinetics-400	MViT-B, 64x3	Acc@5	95.1	# 53	Compare
Action Classification	Kinetics-400	MViT-B, 32x3	Acc@1	80.2	# 96	Compare
Action Classification	Kinetics-400	MViT-B, 32x3	Acc@5	94.4	# 70	Compare
Action Classification	Kinetics-600	MViT-B, 32x3	Top-1 Accuracy	83.4	# 39	Compare
Action Classification	Kinetics-600	MViT-B, 32x3	Top-5 Accuracy	96.3	# 27	Compare
Action Classification	Kinetics-600	MViT-B, 16x4	Top-1 Accuracy	82.1	# 44	Compare
Action Classification	Kinetics-600	MViT-B, 16x4	Top-5 Accuracy	95.7	# 33	Compare
Action Classification	Kinetics-600	MViT-B-24, 32x3	Top-1 Accuracy	83.8	# 36	Compare
Action Classification	Kinetics-600	MViT-B-24, 32x3	Top-5 Accuracy	96.3	# 27	Compare
Action Recognition	Something-Something V2	MViT-B-24, 32x3	Top-1 Accuracy	68.7	# 48	Compare
			Top-5 Accuracy	91.5	# 35	Compare
			Parameters	53.2M	# 1	Compare
			GFLOPs	236x3	# 6	Compare
Action Recognition	Something-Something V2	MViT-B, 32x3(Kinetics600 pretrain)	Top-1 Accuracy	67.8	# 56	Compare
			Top-5 Accuracy	91.3	# 38	Compare
			Parameters	36.6	# 32	Compare
			GFLOPs	170x3	# 6	Compare
Action Recognition	Something-Something V2	MViT-B, 16x4	Top-1 Accuracy	66.2	# 81	Compare
Action Recognition	Something-Something V2	MViT-B, 16x4	Top-5 Accuracy	90.2	# 61	Compare

Methods

Add Remove

MViT

Edit Social Preview

Multiscale Vision Transformers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove