TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Classification	Kinetics-400	G-Blend	Acc@1	77.7	# 127
Action Classification	Kinetics-400	G-Blend (Sports-1M pretrain)	Acc@1	78.9	# 114
Action Recognition In Videos	miniSports	G-Blend	Clip Hit@1	49.7	# 1
Action Recognition In Videos	miniSports	G-Blend	Video hit@1	62.8	# 1
Action Recognition In Videos	miniSports	G-Blend	Video hit@5	85.5	# 1
Action Recognition In Videos	Sports-1M	G-Blend	Video hit@1	74.8	# 1
Action Recognition In Videos	Sports-1M	G-Blend	Video hit@5	92.4	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/what-makes-training-multi-modal-networks-hard/action-recognition-in-videos-on-minisports-1)](https://paperswithcode.com/sota/action-recognition-in-videos-on-minisports-1?p=what-makes-training-multi-modal-networks-hard)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/what-makes-training-multi-modal-networks-hard/action-recognition-in-videos-on-sports-1m-1)](https://paperswithcode.com/sota/action-recognition-in-videos-on-sports-1m-1?p=what-makes-training-multi-modal-networks-hard)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/what-makes-training-multi-modal-networks-hard/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=what-makes-training-multi-modal-networks-hard)`

What Makes Training Multi-Modal Classification Networks Hard?

CVPR 2020 · Wei-Yao Wang, Du Tran, Matt Feiszli ·

Consider end-to-end training of a multi-modal vs. a single-modal network on a task with multiple input modalities: the multi-modal network receives more information, so it should match or outperform its single-modal counterpart. In our experiments, however, we observe the opposite: the best single-modal network always outperforms the multi-modal network. This observation is consistent across different combinations of modalities and on different tasks and benchmarks. This paper identifies two main causes for this performance drop: first, multi-modal networks are often prone to overfitting due to increased capacity. Second, different modalities overfit and generalize at different rates, so training them jointly with a single optimization strategy is sub-optimal. We address these two problems with a technique we call Gradient Blending, which computes an optimal blend of modalities based on their overfitting behavior. We demonstrate that Gradient Blending outperforms widely-used baselines for avoiding overfitting and achieves state-of-the-art accuracy on various tasks including human action recognition, ego-centric action recognition, and acoustic event detection.

PDF Abstract CVPR 2020 PDF CVPR 2020 Abstract

Code

Add Remove Mark official

facebookresearch/R2Plus1D

1,033

facebookresearch/VMZ

1,033

guide2157/ChulaXrayClassifier

Tasks

Add Remove

Action Classification

Action Recognition

Action Recognition In Videos

Classification

Event Detection

General Classification

Multi-modal Classification

Temporal Action Localization

Datasets

Kinetics

Kinetics 400

AudioSet

Sports-1M

Results from the Paper

Edit

Ranked #1 on Action Recognition In Videos on miniSports

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Classification	Kinetics-400	G-Blend	Acc@1	77.7	# 127	Compare
Action Classification	Kinetics-400	G-Blend (Sports-1M pretrain)	Acc@1	78.9	# 114	Compare
Action Recognition In Videos	miniSports	G-Blend	Clip Hit@1	49.7	# 1	Compare
			Video hit@1	62.8	# 1	Compare
			Video hit@5	85.5	# 1	Compare
Action Recognition In Videos	Sports-1M	G-Blend	Video hit@1	74.8	# 1	Compare
Action Recognition In Videos	Sports-1M	G-Blend	Video hit@5	92.4	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

What Makes Training Multi-Modal Classification Networks Hard?

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove