TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Object Tracking	CATER	I3D-50 + LSTM	Top 1 Accuracy	60.2	# 7
Video Object Tracking	CATER	I3D-50 + LSTM	Top 5 Accuracy	81.8	# 6
Video Object Tracking	CATER	I3D-50 + LSTM	L1	1.2	# 6
Action Classification	Charades	I3D	MAP	32.9	# 39
Hand Gesture Recognition	EgoGesture	I3D	Accuracy	92.78	# 4
Action Recognition	HMDB-51	RGB-I3D (Imagenet+Kinetics pre-training)	Average accuracy of 3 splits	74.8	# 39
Action Recognition	HMDB-51	Two-stream I3D	Average accuracy of 3 splits	80.9	# 18
Action Recognition	HMDB-51	Flow-I3D (Kinetics pre-training)	Average accuracy of 3 splits	77.3	# 32
Action Recognition	HMDB-51	Two-Stream I3D (Imagenet+Kinetics pre-training)	Average accuracy of 3 splits	80.7	# 20
Action Recognition	HMDB-51	Flow-I3D (Imagenet+Kinetics pre-training)	Average accuracy of 3 splits	77.1	# 33
Action Recognition	HMDB-51	RGB-I3D (Kinetics pre-training)	Average accuracy of 3 splits	74.3	# 42
Skeleton Based Action Recognition	J-HMDB	I3D	Accuracy (RGB+pose)	84.1	# 4
Action Classification	Kinetics-400	I3D	Acc@1	71.1	# 172
Action Classification	Kinetics-400	I3D	Acc@5	89.3	# 122
Action Classification	MiT	I3D	Top 1 Accuracy	29.51%	# 25
Action Classification	MiT	I3D	Top 5 Accuracy	56.06%	# 14
Action Classification	Toyota Smarthome dataset	I3D	CS	53.4	# 9
Action Classification	Toyota Smarthome dataset	I3D	CV1	34.9	# 6
Action Classification	Toyota Smarthome dataset	I3D	CV2	45.1	# 6
Action Recognition	UCF101	Two-Stream I3D (Imagenet+Kinetics pre-training)	3-fold Accuracy	98.0	# 10
Action Recognition	UCF101	RGB-I3D (Imagenet+Kinetics pre-training)	3-fold Accuracy	95.6	# 40
Action Recognition	UCF101	RGB-I3D (Kinetics pre-training)	3-fold Accuracy	95.1	# 44
Action Recognition	UCF101	Two-stream I3D	3-fold Accuracy	93.4	# 57
Action Recognition	UCF101	Flow-I3D (Imagenet+Kinetics pre-training)	3-fold Accuracy	96.7	# 30
Action Recognition	UCF101	Two-Stream I3D (Kinetics pre-training)	3-fold Accuracy	97.8	# 11
Action Recognition	UCF101	Flow-I3D (Kinetics pre-training)	3-fold Accuracy	96.5	# 32
Hand Gesture Recognition	VIVA Hand Gestures Dataset	I3D	Accuracy	83.1	# 2
Semantic Object Interaction Classification	VLOG	I3D	MAP	39.7	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/hand-gesture-recognition-on-viva-hand-1)](https://paperswithcode.com/sota/hand-gesture-recognition-on-viva-hand-1?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/semantic-object-interaction-classification-on)](https://paperswithcode.com/sota/semantic-object-interaction-classification-on?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/hand-gesture-recognition-on-egogesture-1)](https://paperswithcode.com/sota/hand-gesture-recognition-on-egogesture-1?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/skeleton-based-action-recognition-on-j-hmdb)](https://paperswithcode.com/sota/skeleton-based-action-recognition-on-j-hmdb?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/video-object-tracking-on-cater)](https://paperswithcode.com/sota/video-object-tracking-on-cater?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/action-classification-on-toyota-smarthome)](https://paperswithcode.com/sota/action-classification-on-toyota-smarthome?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/action-recognition-in-videos-on-ucf101)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ucf101?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/action-recognition-in-videos-on-hmdb-51)](https://paperswithcode.com/sota/action-recognition-in-videos-on-hmdb-51?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/action-classification-on-moments-in-time)](https://paperswithcode.com/sota/action-classification-on-moments-in-time?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/action-classification-on-charades)](https://paperswithcode.com/sota/action-classification-on-charades?p=quo-vadis-action-recognition-a-new-model-and)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/quo-vadis-action-recognition-a-new-model-and/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=quo-vadis-action-recognition-a-new-model-and)`

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

CVPR 2017 · Joao Carreira, Andrew Zisserman ·

The paucity of videos in current action classification datasets (UCF-101 and HMDB-51) has made it difficult to identify good video architectures, as most methods obtain similar performance on existing small-scale benchmarks. This paper re-evaluates state-of-the-art architectures in light of the new Kinetics Human Action Video dataset. Kinetics has two orders of magnitude more data, with 400 human action classes and over 400 clips per class, and is collected from realistic, challenging YouTube videos. We provide an analysis on how current architectures fare on the task of action classification on this dataset and how much performance improves on the smaller benchmark datasets after pre-training on Kinetics. We also introduce a new Two-Stream Inflated 3D ConvNet (I3D) that is based on 2D ConvNet inflation: filters and pooling kernels of very deep image classification ConvNets are expanded into 3D, making it possible to learn seamless spatio-temporal feature extractors from video while leveraging successful ImageNet architecture designs and even their parameters. We show that, after pre-training on Kinetics, I3D models considerably improve upon the state-of-the-art in action classification, reaching 80.9% on HMDB-51 and 98.0% on UCF-101.

PDF Abstract CVPR 2017 PDF CVPR 2017 Abstract

Code

Add Remove Mark official

open-mmlab/mmaction2

3,892

deepmind/kinetics-i3d

1,704

piergiaj/pytorch-i3d

937

hassony2/kinetics_i3d_pytorch

514

yaohungt/GSTEG_CVPR_2019

151

See all 33 implementations

Tasks

Add Remove

Action Classification

Action Recognition

General Classification

Skeleton Based Action Recognition

Video Object Tracking

Datasets

UCF101

Kinetics

HMDB51

Kinetics 400

Charades

JHMDB

Sports-1M

MiT

CATER

EgoGesture

Toyota Smarthome Dataset

Toyota Smarthome dataset

VIVA

Results from the Paper

Edit

Ranked #2 on Hand Gesture Recognition on VIVA Hand Gestures Dataset

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Object Tracking	CATER	I3D-50 + LSTM	Top 1 Accuracy	60.2	# 7	Compare
			Top 5 Accuracy	81.8	# 6	Compare
			L1	1.2	# 6	Compare
Action Recognition	HMDB-51	RGB-I3D (Imagenet+Kinetics pre-training)	Average accuracy of 3 splits	74.8	# 39	Compare
Action Recognition	HMDB-51	Two-stream I3D	Average accuracy of 3 splits	80.9	# 18	Compare
Action Recognition	HMDB-51	Flow-I3D (Kinetics pre-training)	Average accuracy of 3 splits	77.3	# 32	Compare
Action Recognition	HMDB-51	Two-Stream I3D (Imagenet+Kinetics pre-training)	Average accuracy of 3 splits	80.7	# 20	Compare
Action Recognition	HMDB-51	Flow-I3D (Imagenet+Kinetics pre-training)	Average accuracy of 3 splits	77.1	# 33	Compare
Action Recognition	HMDB-51	RGB-I3D (Kinetics pre-training)	Average accuracy of 3 splits	74.3	# 42	Compare
Skeleton Based Action Recognition	J-HMDB	I3D	Accuracy (RGB+pose)	84.1	# 4	Compare
Action Classification	MiT	I3D	Top 1 Accuracy	29.51%	# 25	Compare
Action Classification	MiT	I3D	Top 5 Accuracy	56.06%	# 14	Compare
Action Classification	Toyota Smarthome dataset	I3D	CS	53.4	# 9	Compare
			CV1	34.9	# 6	Compare
			CV2	45.1	# 6	Compare
Action Recognition	UCF101	Two-Stream I3D (Imagenet+Kinetics pre-training)	3-fold Accuracy	98.0	# 10	Compare
Action Recognition	UCF101	RGB-I3D (Imagenet+Kinetics pre-training)	3-fold Accuracy	95.6	# 40	Compare
Action Recognition	UCF101	RGB-I3D (Kinetics pre-training)	3-fold Accuracy	95.1	# 44	Compare
Action Recognition	UCF101	Two-stream I3D	3-fold Accuracy	93.4	# 57	Compare
Action Recognition	UCF101	Flow-I3D (Imagenet+Kinetics pre-training)	3-fold Accuracy	96.7	# 30	Compare
Action Recognition	UCF101	Two-Stream I3D (Kinetics pre-training)	3-fold Accuracy	97.8	# 11	Compare
Action Recognition	UCF101	Flow-I3D (Kinetics pre-training)	3-fold Accuracy	96.5	# 32	Compare
Hand Gesture Recognition	VIVA Hand Gestures Dataset	I3D	Accuracy	83.1	# 2	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Compare
Action Classification	Charades	I3D	MAP	32.9	# 39	See all
Hand Gesture Recognition	EgoGesture	I3D	Accuracy	92.78	# 4	See all
Action Classification	Kinetics-400	I3D	Acc@1	71.1	# 172	See all
Action Classification	Kinetics-400	I3D	Acc@5	89.3	# 122	See all
Semantic Object Interaction Classification	VLOG	I3D	MAP	39.7	# 3	See all

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit