TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Classification	Breakfast	Timeception	Accuracy (%)	71.3	# 6
Long-video Activity Recognition	Breakfast	Timeception (I3D-K400-Pretrain-feature)	mAP	61.82	# 7
Action Classification	Charades	Timeception (R3D)	MAP	41.1	# 30
Action Classification	Charades	Timeception (I3D)	MAP	37.2	# 38
Action Classification	Charades	Timeception (R2D)	MAP	31.6	# 41

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/timeception-for-complex-action-recognition/video-classification-on-breakfast)](https://paperswithcode.com/sota/video-classification-on-breakfast?p=timeception-for-complex-action-recognition)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/timeception-for-complex-action-recognition/long-video-activity-recognition-on-breakfast)](https://paperswithcode.com/sota/long-video-activity-recognition-on-breakfast?p=timeception-for-complex-action-recognition)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/timeception-for-complex-action-recognition/action-classification-on-charades)](https://paperswithcode.com/sota/action-classification-on-charades?p=timeception-for-complex-action-recognition)`

Timeception for Complex Action Recognition

CVPR 2019 · Noureldien Hussein, Efstratios Gavves, Arnold W. M. Smeulders ·

This paper focuses on the temporal aspect for recognizing human activities in videos; an important visual cue that has long been undervalued. We revisit the conventional definition of activity and restrict it to Complex Action: a set of one-actions with a weak temporal pattern that serves a specific purpose. Related works use spatiotemporal 3D convolutions with fixed kernel size, too rigid to capture the varieties in temporal extents of complex actions, and too short for long-range temporal modeling. In contrast, we use multi-scale temporal convolutions, and we reduce the complexity of 3D convolutions. The outcome is Timeception convolution layers, which reasons about minute-long temporal patterns, a factor of 8 longer than best related works. As a result, Timeception achieves impressive accuracy in recognizing the human activities of Charades, Breakfast Actions, and MultiTHUMOS. Further, we demonstrate that Timeception learns long-range temporal dependencies and tolerate temporal extents of complex actions.

PDF Abstract CVPR 2019 PDF CVPR 2019 Abstract

Code

Add Remove Mark official

noureldien/timeception official

158

CMU-CREATE-Lab/deep-smoke-machine

111

QUVA-Lab/timeception

Tasks

Add Remove

Action Classification

Action Recognition

Long-video Activity Recognition

Video Classification

Datasets

Charades

Breakfast

MultiTHUMOS

Results from the Paper

Edit

Ranked #6 on Video Classification on Breakfast

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Classification	Breakfast	Timeception	Accuracy (%)	71.3	# 6	Compare
Long-video Activity Recognition	Breakfast	Timeception (I3D-K400-Pretrain-feature)	mAP	61.82	# 7	Compare
Action Classification	Charades	Timeception (R3D)	MAP	41.1	# 30	Compare
Action Classification	Charades	Timeception (I3D)	MAP	37.2	# 38	Compare
Action Classification	Charades	Timeception (R2D)	MAP	31.6	# 41	Compare

Methods

Add Remove

Convolution

Edit Social Preview

Timeception for Complex Action Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove