TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio Classification	AudioSet	MBT (AS-500K training + Video)	Test mAP	0.496	# 9
Action Recognition	EPIC-KITCHENS-100	MBT	Action@1	43.4	# 21
Action Recognition	EPIC-KITCHENS-100	MBT	Verb@1	64.8	# 23
Action Recognition	EPIC-KITCHENS-100	MBT	Noun@1	58	# 14
Action Classification	Kinetics-400	MBT (AV)	Acc@1	80.8	# 85
Action Classification	Kinetics-400	MBT (AV)	Acc@5	94.6	# 61
Action Classification	Kinetics-Sounds	MBT (AV)	Top 1 Accuracy	85	# 2
Action Classification	Kinetics-Sounds	MBT (AV)	Top 5 Accuracy	96.8	# 1
Action Classification	MiT	MBT (AV)	Top 1 Accuracy	37.3	# 15
Action Classification	MiT	MBT (AV)	Top 5 Accuracy	61.2	# 10
Audio Classification	VGGSound	MBT (A)	Top 1 Accuracy	52.3	# 17
Audio Classification	VGGSound	MBT (A)	Top 5 Accuracy	78.1	# 6
Audio Classification	VGGSound	MBT (V)	Top 1 Accuracy	51.2	# 18
Audio Classification	VGGSound	MBT (V)	Top 5 Accuracy	72.6	# 9
Audio Classification	VGGSound	MBT (AV)	Top 5 Accuracy	85.6	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/attention-bottlenecks-for-multimodal-fusion/action-classification-on-kinetics-sounds)](https://paperswithcode.com/sota/action-classification-on-kinetics-sounds?p=attention-bottlenecks-for-multimodal-fusion)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/attention-bottlenecks-for-multimodal-fusion/audio-classification-on-vggsound)](https://paperswithcode.com/sota/audio-classification-on-vggsound?p=attention-bottlenecks-for-multimodal-fusion)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/attention-bottlenecks-for-multimodal-fusion/audio-classification-on-audioset)](https://paperswithcode.com/sota/audio-classification-on-audioset?p=attention-bottlenecks-for-multimodal-fusion)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/attention-bottlenecks-for-multimodal-fusion/action-classification-on-moments-in-time)](https://paperswithcode.com/sota/action-classification-on-moments-in-time?p=attention-bottlenecks-for-multimodal-fusion)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/attention-bottlenecks-for-multimodal-fusion/action-recognition-on-epic-kitchens-100)](https://paperswithcode.com/sota/action-recognition-on-epic-kitchens-100?p=attention-bottlenecks-for-multimodal-fusion)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/attention-bottlenecks-for-multimodal-fusion/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=attention-bottlenecks-for-multimodal-fusion)`

Attention Bottlenecks for Multimodal Fusion

NeurIPS 2021 · Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid, Chen Sun ·

Humans perceive the world by concurrently processing and fusing high-dimensional inputs from multiple modalities such as vision and audio. Machine perception models, in stark contrast, are typically modality-specific and optimised for unimodal benchmarks, and hence late-stage fusion of final representations or predictions from each modality (`late-fusion') is still a dominant paradigm for multimodal video classification. Instead, we introduce a novel transformer based architecture that uses `fusion bottlenecks' for modality fusion at multiple layers. Compared to traditional pairwise self-attention, our model forces information between different modalities to pass through a small number of bottleneck latents, requiring the model to collate and condense the most relevant information in each modality and only share what is necessary. We find that such a strategy improves fusion performance, at the same time reducing computational cost. We conduct thorough ablation studies, and achieve state-of-the-art results on multiple audio-visual classification benchmarks including Audioset, Epic-Kitchens and VGGSound. All code and models will be released.

PDF Abstract NeurIPS 2021 PDF NeurIPS 2021 Abstract

Code

Add Remove Mark official

google-research/scenic official

2,988

Tasks

Add Remove

Action Classification

Action Recognition

Audio Classification

Video Classification

Datasets

Kinetics

Kinetics 400

AudioSet

VGG-Sound

EPIC-KITCHENS-100

MiT

Results from the Paper

Edit

Ranked #2 on Action Classification on Kinetics-Sounds

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Audio Classification	AudioSet	MBT (AS-500K training + Video)	Test mAP	0.496	# 9	Compare
Action Recognition	EPIC-KITCHENS-100	MBT	Action@1	43.4	# 21	Compare
			Verb@1	64.8	# 23	Compare
			Noun@1	58	# 14	Compare
Action Classification	Kinetics-400	MBT (AV)	Acc@1	80.8	# 85	Compare
Action Classification	Kinetics-400	MBT (AV)	Acc@5	94.6	# 61	Compare
Action Classification	Kinetics-Sounds	MBT (AV)	Top 1 Accuracy	85	# 2	Compare
Action Classification	Kinetics-Sounds	MBT (AV)	Top 5 Accuracy	96.8	# 1	Compare
Action Classification	MiT	MBT (AV)	Top 1 Accuracy	37.3	# 15	Compare
Action Classification	MiT	MBT (AV)	Top 5 Accuracy	61.2	# 10	Compare
Audio Classification	VGGSound	MBT (A)	Top 1 Accuracy	52.3	# 17	Compare
Audio Classification	VGGSound	MBT (A)	Top 5 Accuracy	78.1	# 6	Compare
Audio Classification	VGGSound	MBT (V)	Top 1 Accuracy	51.2	# 18	Compare
Audio Classification	VGGSound	MBT (V)	Top 5 Accuracy	72.6	# 9	Compare
Audio Classification	VGGSound	MBT (AV)	Top 5 Accuracy	85.6	# 2	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Attention Bottlenecks for Multimodal Fusion

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove