TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio Classification	AudioSet	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.518	# 3
Audio Classification	AudioSet	Audiovisual Masked Autoencoder (Audio-only, Single)	Test mAP	0.466	# 24
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Verb	52.7	# 3
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Noun	27.2	# 3
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Action	19.7	# 3
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Verb	70.8	# 2
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Noun	55.9	# 2
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Action	45.8	# 2
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Verb	71.4	# 1
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Noun	56.4	# 1
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Action	46.0	# 1
Audio Classification	VGGSound	Audiovisual Masked Autoencoder (Audio-only, Single)	Top 1 Accuracy	57.2	# 11
Audio Classification	VGGSound	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top 1 Accuracy	65.0	# 7

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audiovisual-masked-autoencoders/audio-classification-on-epic-kitchens-100)](https://paperswithcode.com/sota/audio-classification-on-epic-kitchens-100?p=audiovisual-masked-autoencoders)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audiovisual-masked-autoencoders/audio-classification-on-audioset)](https://paperswithcode.com/sota/audio-classification-on-audioset?p=audiovisual-masked-autoencoders)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/audiovisual-masked-autoencoders/audio-classification-on-vggsound)](https://paperswithcode.com/sota/audio-classification-on-vggsound?p=audiovisual-masked-autoencoders)`

Audiovisual Masked Autoencoders

ICCV 2023 · Mariana-Iuliana Georgescu, Eduardo Fonseca, Radu Tudor Ionescu, Mario Lucic, Cordelia Schmid, Anurag Arnab ·

Can we leverage the audiovisual information already present in video to improve self-supervised representation learning? To answer this question, we study various pretraining architectures and objectives within the masked autoencoding framework, motivated by the success of similar methods in natural language and image understanding. We show that we can achieve significant improvements on audiovisual downstream classification tasks, surpassing the state-of-the-art on VGGSound and AudioSet. Furthermore, we can leverage our audiovisual pretraining scheme for multiple unimodal downstream tasks using a single audiovisual pretrained model. We additionally demonstrate the transferability of our representations, achieving state-of-the-art audiovisual results on Epic Kitchens without pretraining specifically for this dataset.

PDF Abstract ICCV 2023 PDF ICCV 2023 Abstract

Code

Add Remove Mark official

google-research/scenic official

↳ Quickstart in

Colab

2,996

google-research/scenic official

2,996

Tasks

Add Remove

Audio Classification

Representation Learning

Datasets

ImageNet

AudioSet

VGG-Sound

EPIC-KITCHENS-100

Results from the Paper

Edit

Ranked #1 on Audio Classification on EPIC-KITCHENS-100 (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Audio Classification	AudioSet	Audiovisual Masked Autoencoder (Audiovisual, Single)	Test mAP	0.518	# 3	Compare
Audio Classification	AudioSet	Audiovisual Masked Autoencoder (Audio-only, Single)	Test mAP	0.466	# 24	Compare
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Audio-only, Single)	Top-1 Verb	52.7	# 3	Compare
			Top-1 Noun	27.2	# 3	Compare
			Top-1 Action	19.7	# 3	Compare
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Video-only, Single)	Top-1 Verb	70.8	# 2	Compare
			Top-1 Noun	55.9	# 2	Compare
			Top-1 Action	45.8	# 2	Compare
Audio Classification	EPIC-KITCHENS-100	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top-1 Verb	71.4	# 1	Compare
			Top-1 Noun	56.4	# 1	Compare
			Top-1 Action	46.0	# 1	Compare
Audio Classification	VGGSound	Audiovisual Masked Autoencoder (Audio-only, Single)	Top 1 Accuracy	57.2	# 11	Compare
Audio Classification	VGGSound	Audiovisual Masked Autoencoder (Audiovisual, Single)	Top 1 Accuracy	65.0	# 7	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Audiovisual Masked Autoencoders

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove