TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Classification	Charades	MoViNet-A4	MAP	48.5	# 12
Action Classification	Charades	MoViNet-A2	MAP	32.5	# 40
Action Classification	Charades	MoViNet-A6	MAP	63.2	# 3
Action Recognition	EPIC-KITCHENS-100	MoViNet-A2	Action@1	41.2	# 23
Action Recognition	EPIC-KITCHENS-100	MoViNet-A2	Verb@1	67.1	# 17
Action Recognition	EPIC-KITCHENS-100	MoViNet-A2	Noun@1	52.3	# 23
Action Recognition	EPIC-KITCHENS-100	MoViNet-A2	GFLOPs	7.59x1	# 1
Action Recognition	EPIC-KITCHENS-100	MoViNet-A6	Action@1	47.7	# 11
Action Recognition	EPIC-KITCHENS-100	MoViNet-A6	Verb@1	72.2	# 3
Action Recognition	EPIC-KITCHENS-100	MoViNet-A6	Noun@1	57.3	# 16
Action Recognition	EPIC-KITCHENS-100	MoViNet-A6	GFLOPs	117x1	# 1
Action Recognition	EPIC-KITCHENS-100	MoViNet-A0	Action@1	36.8	# 26
Action Recognition	EPIC-KITCHENS-100	MoViNet-A0	Verb@1	64.8	# 23
Action Recognition	EPIC-KITCHENS-100	MoViNet-A0	Noun@1	47.4	# 24
Action Recognition	EPIC-KITCHENS-100	MoViNet-A0	GFLOPs	1.74x1	# 1
Action Recognition	EPIC-KITCHENS-100	MoViNet-A4	Action@1	44.4	# 18
Action Recognition	EPIC-KITCHENS-100	MoViNet-A4	Verb@1	68.8	# 15
Action Recognition	EPIC-KITCHENS-100	MoViNet-A4	Noun@1	56.2	# 19
Action Recognition	EPIC-KITCHENS-100	MoViNet-A4	GFLOPs	42.2x1	# 1
Action Recognition	EPIC-KITCHENS-100	MoViNet-A5	Action@1	44.5	# 15
Action Recognition	EPIC-KITCHENS-100	MoViNet-A5	Verb@1	69.1	# 13
Action Recognition	EPIC-KITCHENS-100	MoViNet-A5	Noun@1	55.1	# 20
Action Recognition	EPIC-KITCHENS-100	MoViNet-A5	GFLOPs	74.9x1	# 1
Action Classification	Kinetics-400	MoViNet-A1	Acc@1	72.7	# 165
Action Classification	Kinetics-400	MoViNet-A1	Acc@5	91.2	# 112
Action Classification	Kinetics-400	MoViNet-A1	FLOPs (G) x views	6.0x1	# 1
Action Classification	Kinetics-400	MoViNet-A0	Acc@1	65.8	# 184
Action Classification	Kinetics-400	MoViNet-A0	Acc@5	87.4	# 124
Action Classification	Kinetics-400	MoViNet-A0	FLOPs (G) x views	2.7x1	# 1
Action Classification	Kinetics-400	MoViNet-A4	Acc@1	80.5	# 89
Action Classification	Kinetics-400	MoViNet-A4	Acc@5	94.5	# 65
Action Classification	Kinetics-400	MoViNet-A4	FLOPs (G) x views	105x1	# 1
Action Classification	Kinetics-400	MoViNet-A5	Acc@1	80.9	# 84
Action Classification	Kinetics-400	MoViNet-A5	Acc@5	94.9	# 56
Action Classification	Kinetics-400	MoViNet-A5	FLOPs (G) x views	281x1	# 1
Action Classification	Kinetics-400	MoViNet-A3	Acc@1	78.2	# 120
Action Classification	Kinetics-400	MoViNet-A3	Acc@5	93.8	# 83
Action Classification	Kinetics-400	MoViNet-A3	FLOPs (G) x views	56.9x1	# 1
Action Classification	Kinetics-400	MoViNet-A2	Acc@1	75.0	# 151
Action Classification	Kinetics-400	MoViNet-A2	Acc@5	92.3	# 105
Action Classification	Kinetics-400	MoViNet-A2	FLOPs (G) x views	10.3x1	# 1
Action Classification	Kinetics-400	MoViNet-A6	Acc@1	81.5	# 75
Action Classification	Kinetics-400	MoViNet-A6	FLOPs (G) x views	386x1	# 1
Action Classification	Kinetics-600	MoViNet-A5 (AutoAugment)	Top-1 Accuracy	84.3	# 33
Action Classification	Kinetics-600	MoViNet-A5 (AutoAugment)	Top-5 Accuracy	96.4	# 26
Action Classification	Kinetics-600	MoViNet-A5 (AutoAugment)	GFLOPs	281x1	# 1
Action Classification	Kinetics-600	MoViNet-A6	Top-1 Accuracy	83.5	# 38
Action Classification	Kinetics-600	MoViNet-A6	Top-5 Accuracy	96.5	# 23
Action Classification	Kinetics-600	MoViNet-A6	GFLOPs	386x1	# 1
Action Classification	Kinetics-600	MoViNet-A0	Top-1 Accuracy	71.5	# 62
Action Classification	Kinetics-600	MoViNet-A0	Top-5 Accuracy	90.4	# 48
Action Classification	Kinetics-600	MoViNet-A0	GFLOPs	2.7x1	# 1
Action Classification	Kinetics-600	MoViNet-A1	Top-1 Accuracy	76.0	# 59
Action Classification	Kinetics-600	MoViNet-A1	Top-5 Accuracy	92.6	# 46
Action Classification	Kinetics-600	MoViNet-A1	GFLOPs	6.0x1	# 1
Action Classification	Kinetics-600	MoViNet-A2	Top-1 Accuracy	77.5	# 57
Action Classification	Kinetics-600	MoViNet-A2	Top-5 Accuracy	93.4	# 45
Action Classification	Kinetics-600	MoViNet-A2	GFLOPs	10.3x1	# 1
Action Classification	Kinetics-600	MoViNet-A3	Top-1 Accuracy	80.8	# 50
Action Classification	Kinetics-600	MoViNet-A3	Top-5 Accuracy	80.8	# 49
Action Classification	Kinetics-600	MoViNet-A3	GFLOPs	56.9x1	# 1
Action Classification	Kinetics-600	MoViNet-A4	Top-1 Accuracy	81.2	# 48
Action Classification	Kinetics-600	MoViNet-A4	Top-5 Accuracy	94.9	# 41
Action Classification	Kinetics-600	MoViNet-A4	GFLOPs	105x1	# 1
Action Classification	Kinetics-600	MoViNet-A5	Top-1 Accuracy	82.7	# 43
Action Classification	Kinetics-600	MoViNet-A5	Top-5 Accuracy	95.7	# 33
Action Classification	Kinetics-600	MoViNet-A5	GFLOPs	281x1	# 1
Action Classification	Kinetics-700	MoViNet-A0	Top-1 Accuracy	58.5	# 30
Action Classification	Kinetics-700	MoViNet-A5	Top-1 Accuracy	71.7	# 21
Action Classification	Kinetics-700	MoViNet-A4	Top-1 Accuracy	70.7	# 23
Action Classification	Kinetics-700	MoViNet-A6	Top-1 Accuracy	72.3	# 20
Action Classification	Kinetics-700	MoViNet-A3	Top-1 Accuracy	68.0	# 26
Action Classification	Kinetics-700	MoViNet-A2	Top-1 Accuracy	66.7	# 28
Action Classification	Kinetics-700	MoViNet-A1	Top-1 Accuracy	63.5	# 29
Action Classification	MiT	MoViNet-A0	Top 1 Accuracy	27.5	# 29
Action Classification	MiT	MoViNet-A2	Top 1 Accuracy	34.3	# 17
Action Classification	MiT	MoViNet-A3	Top 1 Accuracy	35.6	# 16
Action Classification	MiT	MoViNet-A4	Top 1 Accuracy	37.9	# 13
Action Classification	MiT	MoViNet-A5	Top 1 Accuracy	39.1	# 12
Action Classification	MiT	MoViNet-A6	Top 1 Accuracy	40.2	# 11
Action Classification	MiT	MoViNet-A1	Top 1 Accuracy	32.0	# 21
Action Recognition	Something-Something V2	MoViNet-A3	Parameters	5.3M	# 5
Action Recognition	Something-Something V2	MoViNet-A3	GFLOPs	23.7x1	# 6
Action Recognition	Something-Something V2	MoViNet-A2	Top-1 Accuracy	63.5	# 97
Action Recognition	Something-Something V2	MoViNet-A2	Top-5 Accuracy	89.0	# 74
Action Recognition	Something-Something V2	MoViNet-A2	Parameters	4.8M	# 6
Action Recognition	Something-Something V2	MoViNet-A2	GFLOPs	10.3x1	# 6
Action Recognition	Something-Something V2	MoViNet-A1	Top-1 Accuracy	62.7	# 100
Action Recognition	Something-Something V2	MoViNet-A1	Top-5 Accuracy	89.0	# 74
Action Recognition	Something-Something V2	MoViNet-A1	Parameters	4.6M	# 7
Action Recognition	Something-Something V2	MoViNet-A1	GFLOPs	6.0x1	# 6
Action Recognition	Something-Something V2	MoViNet-A0	Top-1 Accuracy	61.3	# 108
Action Recognition	Something-Something V2	MoViNet-A0	Top-5 Accuracy	88.2	# 79
Action Recognition	Something-Something V2	MoViNet-A0	Parameters	3.1M	# 11
Action Recognition	Something-Something V2	MoViNet-A0	GFLOPs	2.7x1	# 6

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/movinets-mobile-video-networks-for-efficient/action-classification-on-charades)](https://paperswithcode.com/sota/action-classification-on-charades?p=movinets-mobile-video-networks-for-efficient)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/movinets-mobile-video-networks-for-efficient/action-recognition-in-videos-on-something)](https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=movinets-mobile-video-networks-for-efficient)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/movinets-mobile-video-networks-for-efficient/action-recognition-on-epic-kitchens-100)](https://paperswithcode.com/sota/action-recognition-on-epic-kitchens-100?p=movinets-mobile-video-networks-for-efficient)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/movinets-mobile-video-networks-for-efficient/action-classification-on-moments-in-time)](https://paperswithcode.com/sota/action-classification-on-moments-in-time?p=movinets-mobile-video-networks-for-efficient)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/movinets-mobile-video-networks-for-efficient/action-classification-on-kinetics-700)](https://paperswithcode.com/sota/action-classification-on-kinetics-700?p=movinets-mobile-video-networks-for-efficient)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/movinets-mobile-video-networks-for-efficient/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=movinets-mobile-video-networks-for-efficient)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/movinets-mobile-video-networks-for-efficient/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=movinets-mobile-video-networks-for-efficient)`

MoViNets: Mobile Video Networks for Efficient Video Recognition

CVPR 2021 · Dan Kondratyuk, Liangzhe Yuan, Yandong Li, Li Zhang, Mingxing Tan, Matthew Brown, Boqing Gong ·

We present Mobile Video Networks (MoViNets), a family of computation and memory efficient video networks that can operate on streaming video for online inference. 3D convolutional neural networks (CNNs) are accurate at video recognition but require large computation and memory budgets and do not support online inference, making them difficult to work on mobile devices. We propose a three-step approach to improve computational efficiency while substantially reducing the peak memory usage of 3D CNNs. First, we design a video network search space and employ neural architecture search to generate efficient and diverse 3D CNN architectures. Second, we introduce the Stream Buffer technique that decouples memory from video clip duration, allowing 3D CNNs to embed arbitrary-length streaming video sequences for both training and inference with a small constant memory footprint. Third, we propose a simple ensembling technique to improve accuracy further without sacrificing efficiency. These three progressive techniques allow MoViNets to achieve state-of-the-art accuracy and efficiency on the Kinetics, Moments in Time, and Charades video action recognition datasets. For instance, MoViNet-A5-Stream achieves the same accuracy as X3D-XL on Kinetics 600 while requiring 80% fewer FLOPs and 65% less memory. Code will be made available at https://github.com/tensorflow/models/tree/master/official/vision.

PDF Abstract CVPR 2021 PDF CVPR 2021 Abstract

Code

Add Remove Mark official

tensorflow/models official

76,633

towhee-io/towhee

3,009

Atze00/MoViNet-pytorch

↳ Quickstart in

Colab

244

Tasks

Add Remove

Action Classification

Action Recognition

Computational Efficiency

Neural Architecture Search

Temporal Action Localization

Video Recognition

Datasets

Kinetics

Kinetics 400

Charades

Something-Something V2

EPIC-KITCHENS-100

Kinetics-600

MiT

Kinetics-700

Results from the Paper

Edit

Ranked #3 on Action Classification on Charades

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Classification	Charades	MoViNet-A4	MAP	48.5	# 12	Compare
Action Classification	Charades	MoViNet-A2	MAP	32.5	# 40	Compare
Action Classification	Charades	MoViNet-A6	MAP	63.2	# 3	Compare
Action Recognition	EPIC-KITCHENS-100	MoViNet-A2	Action@1	41.2	# 23	Compare
			Verb@1	67.1	# 17	Compare
			Noun@1	52.3	# 23	Compare
			GFLOPs	7.59x1	# 1	Compare
Action Recognition	EPIC-KITCHENS-100	MoViNet-A6	Action@1	47.7	# 11	Compare
			Verb@1	72.2	# 3	Compare
			Noun@1	57.3	# 16	Compare
			GFLOPs	117x1	# 1	Compare
Action Recognition	EPIC-KITCHENS-100	MoViNet-A0	Action@1	36.8	# 26	Compare
			Verb@1	64.8	# 23	Compare
			Noun@1	47.4	# 24	Compare
			GFLOPs	1.74x1	# 1	Compare
Action Recognition	EPIC-KITCHENS-100	MoViNet-A4	Action@1	44.4	# 18	Compare
			Verb@1	68.8	# 15	Compare
			Noun@1	56.2	# 19	Compare
			GFLOPs	42.2x1	# 1	Compare
Action Recognition	EPIC-KITCHENS-100	MoViNet-A5	Action@1	44.5	# 15	Compare
			Verb@1	69.1	# 13	Compare
			Noun@1	55.1	# 20	Compare
			GFLOPs	74.9x1	# 1	Compare
Action Classification	Kinetics-400	MoViNet-A1	Acc@1	72.7	# 165	Compare
			Acc@5	91.2	# 112	Compare
			FLOPs (G) x views	6.0x1	# 1	Compare
Action Classification	Kinetics-400	MoViNet-A0	Acc@1	65.8	# 184	Compare
			Acc@5	87.4	# 124	Compare
			FLOPs (G) x views	2.7x1	# 1	Compare
Action Classification	Kinetics-400	MoViNet-A4	Acc@1	80.5	# 89	Compare
			Acc@5	94.5	# 65	Compare
			FLOPs (G) x views	105x1	# 1	Compare
Action Classification	Kinetics-400	MoViNet-A5	Acc@1	80.9	# 84	Compare
			Acc@5	94.9	# 56	Compare
			FLOPs (G) x views	281x1	# 1	Compare
Action Classification	Kinetics-400	MoViNet-A3	Acc@1	78.2	# 120	Compare
			Acc@5	93.8	# 83	Compare
			FLOPs (G) x views	56.9x1	# 1	Compare
Action Classification	Kinetics-400	MoViNet-A2	Acc@1	75.0	# 151	Compare
			Acc@5	92.3	# 105	Compare
			FLOPs (G) x views	10.3x1	# 1	Compare
Action Classification	Kinetics-400	MoViNet-A6	Acc@1	81.5	# 75	Compare
Action Classification	Kinetics-400	MoViNet-A6	FLOPs (G) x views	386x1	# 1	Compare
Action Classification	Kinetics-600	MoViNet-A5 (AutoAugment)	Top-1 Accuracy	84.3	# 33	Compare
			Top-5 Accuracy	96.4	# 26	Compare
			GFLOPs	281x1	# 1	Compare
Action Classification	Kinetics-600	MoViNet-A6	Top-1 Accuracy	83.5	# 38	Compare
			Top-5 Accuracy	96.5	# 23	Compare
			GFLOPs	386x1	# 1	Compare
Action Classification	Kinetics-600	MoViNet-A0	Top-1 Accuracy	71.5	# 62	Compare
			Top-5 Accuracy	90.4	# 48	Compare
			GFLOPs	2.7x1	# 1	Compare
Action Classification	Kinetics-600	MoViNet-A1	Top-1 Accuracy	76.0	# 59	Compare
			Top-5 Accuracy	92.6	# 46	Compare
			GFLOPs	6.0x1	# 1	Compare
Action Classification	Kinetics-600	MoViNet-A2	Top-1 Accuracy	77.5	# 57	Compare
			Top-5 Accuracy	93.4	# 45	Compare
			GFLOPs	10.3x1	# 1	Compare
Action Classification	Kinetics-600	MoViNet-A3	Top-1 Accuracy	80.8	# 50	Compare
			Top-5 Accuracy	80.8	# 49	Compare
			GFLOPs	56.9x1	# 1	Compare
Action Classification	Kinetics-600	MoViNet-A4	Top-1 Accuracy	81.2	# 48	Compare
			Top-5 Accuracy	94.9	# 41	Compare
			GFLOPs	105x1	# 1	Compare
Action Classification	Kinetics-600	MoViNet-A5	Top-1 Accuracy	82.7	# 43	Compare
			Top-5 Accuracy	95.7	# 33	Compare
			GFLOPs	281x1	# 1	Compare
Action Classification	Kinetics-700	MoViNet-A0	Top-1 Accuracy	58.5	# 30	Compare
Action Classification	Kinetics-700	MoViNet-A5	Top-1 Accuracy	71.7	# 21	Compare
Action Classification	Kinetics-700	MoViNet-A4	Top-1 Accuracy	70.7	# 23	Compare
Action Classification	Kinetics-700	MoViNet-A6	Top-1 Accuracy	72.3	# 20	Compare
Action Classification	Kinetics-700	MoViNet-A3	Top-1 Accuracy	68.0	# 26	Compare
Action Classification	Kinetics-700	MoViNet-A2	Top-1 Accuracy	66.7	# 28	Compare
Action Classification	Kinetics-700	MoViNet-A1	Top-1 Accuracy	63.5	# 29	Compare
Action Classification	MiT	MoViNet-A0	Top 1 Accuracy	27.5	# 29	Compare
Action Classification	MiT	MoViNet-A2	Top 1 Accuracy	34.3	# 17	Compare
Action Classification	MiT	MoViNet-A3	Top 1 Accuracy	35.6	# 16	Compare
Action Classification	MiT	MoViNet-A4	Top 1 Accuracy	37.9	# 13	Compare
Action Classification	MiT	MoViNet-A5	Top 1 Accuracy	39.1	# 12	Compare
Action Classification	MiT	MoViNet-A6	Top 1 Accuracy	40.2	# 11	Compare
Action Classification	MiT	MoViNet-A1	Top 1 Accuracy	32.0	# 21	Compare
Action Recognition	Something-Something V2	MoViNet-A3	Parameters	5.3M	# 5	Compare
Action Recognition	Something-Something V2	MoViNet-A3	GFLOPs	23.7x1	# 6	Compare
Action Recognition	Something-Something V2	MoViNet-A2	Top-1 Accuracy	63.5	# 97	Compare
			Top-5 Accuracy	89.0	# 74	Compare
			Parameters	4.8M	# 6	Compare
			GFLOPs	10.3x1	# 6	Compare
Action Recognition	Something-Something V2	MoViNet-A1	Top-1 Accuracy	62.7	# 100	Compare
			Top-5 Accuracy	89.0	# 74	Compare
			Parameters	4.6M	# 7	Compare
			GFLOPs	6.0x1	# 6	Compare
Action Recognition	Something-Something V2	MoViNet-A0	Top-1 Accuracy	61.3	# 108	Compare
			Top-5 Accuracy	88.2	# 79	Compare
			Parameters	3.1M	# 11	Compare
			GFLOPs	2.7x1	# 6	Compare

Methods

Add Remove

3D CNN • MoViNet

Edit Social Preview

MoViNets: Mobile Video Networks for Efficient Video Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove