TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	AVA v2.1	D3D (ResNet RPN, Kinetics-400 pretraining)	mAP (Val)	23	# 11
Action Recognition	HMDB-51	D3D (Kinetics-400 pretraining)	Average accuracy of 3 splits	78.7	# 26
Action Recognition	HMDB-51	D3D + D3D	Average accuracy of 3 splits	80.5	# 21
Action Recognition	HMDB-51	D3D (Kinetics-600 pretraining)	Average accuracy of 3 splits	79.3	# 24
Action Classification	Kinetics-400	D3D+S3D-G (RGB + RGB)	Acc@1	76.5	# 140
Action Classification	Kinetics-400	D3D (RGB)	Acc@1	75.9	# 146
Action Classification	Kinetics-600	D3D+S3D-G	Top-1 Accuracy	79.1	# 53
Action Classification	Kinetics-600	D3D	Top-1 Accuracy	77.9	# 56
Action Recognition	UCF101	D3D (Kinetics-600 pretraining)	3-fold Accuracy	97.1	# 20
Action Recognition	UCF101	D3D + D3D	3-fold Accuracy	97.6	# 15
Action Recognition	UCF101	D3D (Kinetics-400 pretraining)	3-fold Accuracy	97	# 23

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/d3d-distilled-3d-networks-for-video-action/action-recognition-in-videos-on-ava-v21)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ava-v21?p=d3d-distilled-3d-networks-for-video-action)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/d3d-distilled-3d-networks-for-video-action/action-recognition-in-videos-on-ucf101)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ucf101?p=d3d-distilled-3d-networks-for-video-action)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/d3d-distilled-3d-networks-for-video-action/action-recognition-in-videos-on-hmdb-51)](https://paperswithcode.com/sota/action-recognition-in-videos-on-hmdb-51?p=d3d-distilled-3d-networks-for-video-action)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/d3d-distilled-3d-networks-for-video-action/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=d3d-distilled-3d-networks-for-video-action)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/d3d-distilled-3d-networks-for-video-action/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=d3d-distilled-3d-networks-for-video-action)`

D3D: Distilled 3D Networks for Video Action Recognition

19 Dec 2018 · Jonathan C. Stroud, David A. Ross, Chen Sun, Jia Deng, Rahul Sukthankar ·

State-of-the-art methods for video action recognition commonly use an ensemble of two networks: the spatial stream, which takes RGB frames as input, and the temporal stream, which takes optical flow as input. In recent work, both of these streams consist of 3D Convolutional Neural Networks, which apply spatiotemporal filters to the video clip before performing classification. Conceptually, the temporal filters should allow the spatial stream to learn motion representations, making the temporal stream redundant. However, we still see significant benefits in action recognition performance by including an entirely separate temporal stream, indicating that the spatial stream is "missing" some of the signal captured by the temporal stream. In this work, we first investigate whether motion representations are indeed missing in the spatial stream of 3D CNNs. Second, we demonstrate that these motion representations can be improved by distillation, by tuning the spatial stream to predict the outputs of the temporal stream, effectively combining both models into a single stream. Finally, we show that our Distilled 3D Network (D3D) achieves performance on par with two-stream approaches, using only a single model and with no need to compute optical flow.

PDF Abstract

Code

Add Remove Mark official

princeton-vl/d3dhelper

Tasks

Add Remove

Action Classification

Action Recognition

Optical Flow Estimation

Temporal Action Localization

Datasets

UCF101

Kinetics

HMDB51

Kinetics 400

Kinetics-600

AVA

Results from the Paper

Edit

Ranked #11 on Action Recognition on AVA v2.1

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	AVA v2.1	D3D (ResNet RPN, Kinetics-400 pretraining)	mAP (Val)	23	# 11	Compare
Action Recognition	HMDB-51	D3D (Kinetics-400 pretraining)	Average accuracy of 3 splits	78.7	# 26	Compare
Action Recognition	HMDB-51	D3D + D3D	Average accuracy of 3 splits	80.5	# 21	Compare
Action Recognition	HMDB-51	D3D (Kinetics-600 pretraining)	Average accuracy of 3 splits	79.3	# 24	Compare
Action Classification	Kinetics-400	D3D+S3D-G (RGB + RGB)	Acc@1	76.5	# 140	Compare
Action Classification	Kinetics-400	D3D (RGB)	Acc@1	75.9	# 146	Compare
Action Classification	Kinetics-600	D3D+S3D-G	Top-1 Accuracy	79.1	# 53	Compare
Action Classification	Kinetics-600	D3D	Top-1 Accuracy	77.9	# 56	Compare
Action Recognition	UCF101	D3D (Kinetics-600 pretraining)	3-fold Accuracy	97.1	# 20	Compare
Action Recognition	UCF101	D3D + D3D	3-fold Accuracy	97.6	# 15	Compare
Action Recognition	UCF101	D3D (Kinetics-400 pretraining)	3-fold Accuracy	97	# 23	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

D3D: Distilled 3D Networks for Video Action Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove