TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	HMDB-51	LGD-3D Flow	Average accuracy of 3 splits	78.9	# 25
Action Recognition	HMDB-51	LGD-3D RGB	Average accuracy of 3 splits	75.7	# 37
Action Recognition	HMDB-51	LGD-3D Two-stream	Average accuracy of 3 splits	80.5	# 21
Action Classification	Kinetics-400	LGD-3D RGB (ResNet-101)	Acc@1	79.4	# 103
Action Classification	Kinetics-400	LGD-3D RGB (ResNet-101)	Acc@5	94.4	# 70
Action Classification	Kinetics-400	LGD-3D Two-stream (ResNet-101)	Acc@1	81.2	# 79
Action Classification	Kinetics-400	LGD-3D Two-stream (ResNet-101)	Acc@5	95.2	# 50
Action Classification	Kinetics-400	LGD-3D Flow (ResNet-101)	Acc@1	72.3	# 167
Action Classification	Kinetics-400	LGD-3D Flow (ResNet-101)	Acc@5	90.9	# 115
Action Classification	Kinetics-600	LGD-3D Two-stream	Top-1 Accuracy	83.1	# 40
Action Classification	Kinetics-600	LGD-3D Two-stream	Top-5 Accuracy	96.2	# 31
Action Classification	Kinetics-600	LGD-3D Flow	Top-1 Accuracy	75	# 60
Action Classification	Kinetics-600	LGD-3D Flow	Top-5 Accuracy	92.4	# 47
Action Classification	Kinetics-600	LGD-3D RGB	Top-1 Accuracy	81.5	# 47
Action Classification	Kinetics-600	LGD-3D RGB	Top-5 Accuracy	95.6	# 37
Action Recognition	UCF101	LGD-3D Two-stream	3-fold Accuracy	98.2	# 8
Action Recognition	UCF101	LGD-3D Flow	3-fold Accuracy	96.8	# 27
Action Recognition	UCF101	LGD-3D RGB	3-fold Accuracy	97	# 23

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/learning-spatio-temporal-representation-with-3/action-recognition-in-videos-on-ucf101)](https://paperswithcode.com/sota/action-recognition-in-videos-on-ucf101?p=learning-spatio-temporal-representation-with-3)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/learning-spatio-temporal-representation-with-3/action-recognition-in-videos-on-hmdb-51)](https://paperswithcode.com/sota/action-recognition-in-videos-on-hmdb-51?p=learning-spatio-temporal-representation-with-3)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/learning-spatio-temporal-representation-with-3/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=learning-spatio-temporal-representation-with-3)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/learning-spatio-temporal-representation-with-3/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=learning-spatio-temporal-representation-with-3)`

Learning Spatio-Temporal Representation with Local and Global Diffusion

CVPR 2019 · Zhaofan Qiu, Ting Yao, Chong-Wah Ngo, Xinmei Tian, Tao Mei ·

Convolutional Neural Networks (CNN) have been regarded as a powerful class of models for visual recognition problems. Nevertheless, the convolutional filters in these networks are local operations while ignoring the large-range dependency. Such drawback becomes even worse particularly for video recognition, since video is an information-intensive media with complex temporal variations. In this paper, we present a novel framework to boost the spatio-temporal representation learning by Local and Global Diffusion (LGD). Specifically, we construct a novel neural network architecture that learns the local and global representations in parallel. The architecture is composed of LGD blocks, where each block updates local and global features by modeling the diffusions between these two representations. Diffusions effectively interact two aspects of information, i.e., localized and holistic, for more powerful way of representation learning. Furthermore, a kernelized classifier is introduced to combine the representations from two aspects for video recognition. Our LGD networks achieve clear improvements on the large-scale Kinetics-400 and Kinetics-600 video classification datasets against the best competitors by 3.5% and 0.7%. We further examine the generalization of both the global and local representations produced by our pre-trained LGD networks on four different benchmarks for video action recognition and spatio-temporal action detection tasks. Superior performances over several state-of-the-art techniques on these benchmarks are reported. Code is available at: https://github.com/ZhaofanQiu/local-and-global-diffusion-networks.

PDF Abstract CVPR 2019 PDF CVPR 2019 Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Action Classification

Action Detection

Action Recognition

Representation Learning

Temporal Action Localization

Video Classification

Video Recognition

Datasets

UCF101

Kinetics

HMDB51

Kinetics 400

JHMDB

Kinetics-600

Results from the Paper

Edit

Ranked #8 on Action Recognition on UCF101

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	HMDB-51	LGD-3D Flow	Average accuracy of 3 splits	78.9	# 25	Compare
Action Recognition	HMDB-51	LGD-3D RGB	Average accuracy of 3 splits	75.7	# 37	Compare
Action Recognition	HMDB-51	LGD-3D Two-stream	Average accuracy of 3 splits	80.5	# 21	Compare
Action Classification	Kinetics-400	LGD-3D RGB (ResNet-101)	Acc@1	79.4	# 103	Compare
Action Classification	Kinetics-400	LGD-3D RGB (ResNet-101)	Acc@5	94.4	# 70	Compare
Action Classification	Kinetics-400	LGD-3D Two-stream (ResNet-101)	Acc@1	81.2	# 79	Compare
Action Classification	Kinetics-400	LGD-3D Two-stream (ResNet-101)	Acc@5	95.2	# 50	Compare
Action Classification	Kinetics-400	LGD-3D Flow (ResNet-101)	Acc@1	72.3	# 167	Compare
Action Classification	Kinetics-400	LGD-3D Flow (ResNet-101)	Acc@5	90.9	# 115	Compare
Action Classification	Kinetics-600	LGD-3D Two-stream	Top-1 Accuracy	83.1	# 40	Compare
Action Classification	Kinetics-600	LGD-3D Two-stream	Top-5 Accuracy	96.2	# 31	Compare
Action Classification	Kinetics-600	LGD-3D Flow	Top-1 Accuracy	75	# 60	Compare
Action Classification	Kinetics-600	LGD-3D Flow	Top-5 Accuracy	92.4	# 47	Compare
Action Classification	Kinetics-600	LGD-3D RGB	Top-1 Accuracy	81.5	# 47	Compare
Action Classification	Kinetics-600	LGD-3D RGB	Top-5 Accuracy	95.6	# 37	Compare
Action Recognition	UCF101	LGD-3D Two-stream	3-fold Accuracy	98.2	# 8	Compare
Action Recognition	UCF101	LGD-3D Flow	3-fold Accuracy	96.8	# 27	Compare
Action Recognition	UCF101	LGD-3D RGB	3-fold Accuracy	97	# 23	Compare

Methods

Add Remove

1x1 Convolution • Average Pooling • Batch Normalization • Bottleneck Residual Block • Convolution • Global Average Pooling • Kaiming Initialization • Max Pooling • ReLU • Residual Block • Residual Connection • ResNet

Edit Social Preview

Learning Spatio-Temporal Representation with Local and Global Diffusion

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove