TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Classification	Charades	AssembleNet-101	MAP	58.6	# 6
Action Classification	Charades	AssembleNet	MAP	58.6	# 6
Action Classification	MiT	AssembleNet	Top 1 Accuracy	34.27%	# 18
Action Classification	MiT	AssembleNet	Top 5 Accuracy	62.71%	# 9
Multimodal Activity Recognition	Moments in Time Dataset	AssembleNet	Top-1 (%)	34.27	# 1
Multimodal Activity Recognition	Moments in Time Dataset	AssembleNet	Top-5 (%)	62.71	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/assemblenet-searching-for-multi-stream-neural/multimodal-activity-recognition-on-moments-in)](https://paperswithcode.com/sota/multimodal-activity-recognition-on-moments-in?p=assemblenet-searching-for-multi-stream-neural)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/assemblenet-searching-for-multi-stream-neural/action-classification-on-charades)](https://paperswithcode.com/sota/action-classification-on-charades?p=assemblenet-searching-for-multi-stream-neural)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/assemblenet-searching-for-multi-stream-neural/action-classification-on-moments-in-time)](https://paperswithcode.com/sota/action-classification-on-moments-in-time?p=assemblenet-searching-for-multi-stream-neural)`

AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures

ICLR 2020 · Michael S. Ryoo, AJ Piergiovanni, Mingxing Tan, Anelia Angelova ·

Learning to represent videos is a very challenging task both algorithmically and computationally. Standard video CNN architectures have been designed by directly extending architectures devised for image understanding to include the time dimension, using modules such as 3D convolutions, or by using two-stream design to capture both appearance and motion in videos. We interpret a video CNN as a collection of multi-stream convolutional blocks connected to each other, and propose the approach of automatically finding neural architectures with better connectivity and spatio-temporal interactions for video understanding. This is done by evolving a population of overly-connected architectures guided by connection weight learning. Architectures combining representations that abstract different input types (i.e., RGB and optical flow) at multiple temporal resolutions are searched for, allowing different types or sources of information to interact with each other. Our method, referred to as AssembleNet, outperforms prior approaches on public video datasets, in some cases by a great margin. We obtain 58.6% mAP on Charades and 34.27% accuracy on Moments-in-Time.

PDF Abstract ICLR 2020 PDF ICLR 2020 Abstract

Code

Add Remove Mark official

tensorflow/models official

72,249

google-research/google-research

32,780

Tasks

Add Remove

Action Classification

Action Recognition

Multimodal Activity Recognition

Optical Flow Estimation

Video Classification

Video Understanding

Datasets

Charades

MiT

Results from the Paper

Edit

Ranked #1 on Multimodal Activity Recognition on Moments in Time Dataset

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Classification	Charades	AssembleNet-101	MAP	58.6	# 6	Compare
Action Classification	Charades	AssembleNet	MAP	58.6	# 6	Compare
Action Classification	MiT	AssembleNet	Top 1 Accuracy	34.27%	# 18	Compare
Action Classification	MiT	AssembleNet	Top 5 Accuracy	62.71%	# 9	Compare
Multimodal Activity Recognition	Moments in Time Dataset	AssembleNet	Top-1 (%)	34.27	# 1	Compare
Multimodal Activity Recognition	Moments in Time Dataset	AssembleNet	Top-5 (%)	62.71	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

AssembleNet: Searching for Multi-Stream Neural Connectivity in Video Architectures

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove