TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Multi-modal Classification	AudioSet	CAV-MAE	Average mAP	0.512	# 1
Audio Classification	AudioSet	CAV-MAE (Audio-Visual)	Test mAP	0.512	# 4
Audio Classification	AudioSet	CAV-MAE (Audio-Only)	Test mAP	0.466	# 24
Audio Tagging	AudioSet	CAV-MAE (Audio-Visual)	mean average precision	0.512	# 1
Audio Tagging	AudioSet	CAV-MAE (Audio-Only)	mean average precision	0.466	# 9
Audio Classification	AudioSet	CAV-MAE (Visual-Only)	Test mAP	0.262	# 39
Audio Classification	VGGSound	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	# 5
Audio Classification	VGGSound	CAV-MAE (Audio-Only)	Top 1 Accuracy	59.5	# 10
Multi-modal Classification	VGG-Sound	CAV-MAE (Audio-Visual)	Top-1 Accuracy	65.9	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/contrastive-audio-visual-masked-autoencoder/multi-modal-classification-on-audioset)](https://paperswithcode.com/sota/multi-modal-classification-on-audioset?p=contrastive-audio-visual-masked-autoencoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/contrastive-audio-visual-masked-autoencoder/audio-tagging-on-audioset)](https://paperswithcode.com/sota/audio-tagging-on-audioset?p=contrastive-audio-visual-masked-autoencoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/contrastive-audio-visual-masked-autoencoder/multi-modal-classification-on-vgg-sound)](https://paperswithcode.com/sota/multi-modal-classification-on-vgg-sound?p=contrastive-audio-visual-masked-autoencoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/contrastive-audio-visual-masked-autoencoder/audio-classification-on-audioset)](https://paperswithcode.com/sota/audio-classification-on-audioset?p=contrastive-audio-visual-masked-autoencoder)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/contrastive-audio-visual-masked-autoencoder/audio-classification-on-vggsound)](https://paperswithcode.com/sota/audio-classification-on-vggsound?p=contrastive-audio-visual-masked-autoencoder)`

Contrastive Audio-Visual Masked Autoencoder

2 Oct 2022 · Yuan Gong, Andrew Rouditchenko, Alexander H. Liu, David Harwath, Leonid Karlinsky, Hilde Kuehne, James Glass ·

In this paper, we first extend the recent Masked Auto-Encoder (MAE) model from a single modality to audio-visual multi-modalities. Subsequently, we propose the Contrastive Audio-Visual Masked Auto-Encoder (CAV-MAE) by combining contrastive learning and masked data modeling, two major self-supervised learning frameworks, to learn a joint and coordinated audio-visual representation. Our experiments show that the contrastive audio-visual correspondence learning objective not only enables the model to perform audio-visual retrieval tasks, but also helps the model learn a better joint representation. As a result, our fully self-supervised pretrained CAV-MAE achieves a new SOTA accuracy of 65.9% on VGGSound, and is comparable with the previous best supervised pretrained model on AudioSet in the audio-visual event classification task. Code and pretrained models are at https://github.com/yuangongnd/cav-mae.

PDF Abstract

Code

Add Remove Mark official

yuangongnd/cav-mae official

201

Tasks

Add Remove

Audio Classification

Audio Tagging

Contrastive Learning

Multi-modal Classification

Retrieval

Self-Supervised Learning

Datasets

AudioSet

VGG-Sound

Results from the Paper

Edit

Ranked #1 on Audio Tagging on AudioSet (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Multi-modal Classification	AudioSet	CAV-MAE	Average mAP	0.512	# 1	Compare
Audio Classification	AudioSet	CAV-MAE (Audio-Visual)	Test mAP	0.512	# 4	Compare
Audio Classification	AudioSet	CAV-MAE (Audio-Only)	Test mAP	0.466	# 24	Compare
Audio Tagging	AudioSet	CAV-MAE (Audio-Visual)	mean average precision	0.512	# 1	Compare
Audio Tagging	AudioSet	CAV-MAE (Audio-Only)	mean average precision	0.466	# 9	Compare
Audio Classification	AudioSet	CAV-MAE (Visual-Only)	Test mAP	0.262	# 39	Compare
Audio Classification	VGGSound	CAV-MAE (Audio-Visual)	Top 1 Accuracy	65.9	# 5	Compare
Audio Classification	VGGSound	CAV-MAE (Audio-Only)	Top 1 Accuracy	59.5	# 10	Compare
Multi-modal Classification	VGG-Sound	CAV-MAE (Audio-Visual)	Top-1 Accuracy	65.9	# 2	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • AutoEncoder • BPE • Contrastive Learning • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

Contrastive Audio-Visual Masked Autoencoder

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove