TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio Classification	DCASE	XDC	Top-1 Accuracy	95	# 3
Audio Classification	DCASE	XDC	PRE-TRAINING DATASET	AudioSet	# 1
Audio Classification	DCASE	XDC	Top-1 Accuracy	95	# 3
Audio Classification	DCASE	XDC	PRE-TRAINING DATASET	IG-Random	# 1
Audio Classification	ESC-50	XDC	Top-1 Accuracy	85.4	# 19
Audio Classification	ESC-50	XDC	PRE-TRAINING DATASET	IG-Random	# 1
Self-Supervised Audio Classification	ESC-50	XDC	Top-1 Accuracy	85.4	# 6
Audio Classification	ESC-50	XDC	Top-1 Accuracy	84.8	# 20
Audio Classification	ESC-50	XDC	PRE-TRAINING DATASET	AudioSet	# 1
Self-Supervised Action Recognition	HMDB51	XDC	Top-1 Accuracy	66.5	# 13
Self-Supervised Action Recognition	HMDB51	XDC	Pre-Training Dataset	IG-Random	# 1
Self-Supervised Action Recognition	HMDB51	XDC	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51	XDC	Top-1 Accuracy	52.6	# 32
Self-Supervised Action Recognition	HMDB51	XDC	Pre-Training Dataset	Kinetics400	# 1
Self-Supervised Action Recognition	HMDB51	XDC	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51	XDC	Top-1 Accuracy	63.7	# 21
Self-Supervised Action Recognition	HMDB51	XDC	Pre-Training Dataset	AudioSet	# 1
Self-Supervised Action Recognition	HMDB51	XDC	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51	XDC	Top-1 Accuracy	68.9	# 9
Self-Supervised Action Recognition	HMDB51	XDC	Pre-Training Dataset	IG-Kinetics	# 1
Self-Supervised Action Recognition	HMDB51	XDC	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51 (finetuned)	XDC	Top-1 Accuracy	68.9	# 4
Self-Supervised Action Recognition	UCF101 (finetuned)	XDC	3-fold Accuracy	95.5	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-learning-by-cross-modal-audio/self-supervised-action-recognition-on-ucf101-1)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-ucf101-1?p=self-supervised-learning-by-cross-modal-audio)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-learning-by-cross-modal-audio/audio-classification-on-dcase)](https://paperswithcode.com/sota/audio-classification-on-dcase?p=self-supervised-learning-by-cross-modal-audio)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-learning-by-cross-modal-audio/self-supervised-action-recognition-on-hmdb51-1)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-hmdb51-1?p=self-supervised-learning-by-cross-modal-audio)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-learning-by-cross-modal-audio/self-supervised-audio-classification-on-esc)](https://paperswithcode.com/sota/self-supervised-audio-classification-on-esc?p=self-supervised-learning-by-cross-modal-audio)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-learning-by-cross-modal-audio/self-supervised-action-recognition-on-hmdb51)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-hmdb51?p=self-supervised-learning-by-cross-modal-audio)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-learning-by-cross-modal-audio/audio-classification-on-esc-50)](https://paperswithcode.com/sota/audio-classification-on-esc-50?p=self-supervised-learning-by-cross-modal-audio)`

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

NeurIPS 2020 · Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, Du Tran ·

Visual and audio modalities are highly correlated, yet they contain different information. Their strong correlation makes it possible to predict the semantics of one from the other with good accuracy. Their intrinsic differences make cross-modal prediction a potentially more rewarding pretext task for self-supervised learning of video and audio representations compared to within-modality learning. Based on this intuition, we propose Cross-Modal Deep Clustering (XDC), a novel self-supervised method that leverages unsupervised clustering in one modality (e.g., audio) as a supervisory signal for the other modality (e.g., video). This cross-modal supervision helps XDC utilize the semantic correlation and the differences between the two modalities. Our experiments show that XDC outperforms single-modality clustering and other multi-modal variants. XDC achieves state-of-the-art accuracy among self-supervised methods on multiple video and audio benchmarks. Most importantly, our video model pretrained on large-scale unlabeled data significantly outperforms the same model pretrained with full-supervision on ImageNet and Kinetics for action recognition on HMDB51 and UCF101. To the best of our knowledge, XDC is the first self-supervised learning method that outperforms large-scale fully-supervised pretraining for action recognition on the same architecture.

PDF Abstract NeurIPS 2020 PDF NeurIPS 2020 Abstract

Code

Add Remove Mark official

HumamAlwassel/XDC official

Tasks

Add Remove

Action Recognition

Audio Classification

Clustering

Deep Clustering

Representation Learning

Self-Supervised Action Recognition

Self-Supervised Audio Classification

Self-Supervised Learning

Datasets

UCF101

Kinetics

HMDB51

AudioSet

ESC-50

THUMOS14

Results from the Paper

Edit

Ranked #2 on Self-Supervised Action Recognition on UCF101 (finetuned)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Audio Classification	DCASE	XDC	Top-1 Accuracy	95	# 3	Compare
			PRE-TRAINING DATASET	AudioSet	# 1	Compare
			Top-1 Accuracy	95	# 3	Compare
			PRE-TRAINING DATASET	IG-Random	# 1	Compare
Audio Classification	ESC-50	XDC	Top-1 Accuracy	85.4	# 19	Compare
			PRE-TRAINING DATASET	IG-Random	# 1	Compare
			Top-1 Accuracy	84.8	# 20	Compare
			PRE-TRAINING DATASET	AudioSet	# 1	Compare
Self-Supervised Action Recognition	HMDB51	XDC	Top-1 Accuracy	66.5	# 13	Compare
			Pre-Training Dataset	IG-Random	# 1	Compare
			Frozen	false	# 1	Compare
			Top-1 Accuracy	52.6	# 32	Compare
			Pre-Training Dataset	Kinetics400	# 1	Compare
			Frozen	false	# 1	Compare
			Top-1 Accuracy	63.7	# 21	Compare
			Pre-Training Dataset	AudioSet	# 1	Compare
			Frozen	false	# 1	Compare
			Top-1 Accuracy	68.9	# 9	Compare
			Pre-Training Dataset	IG-Kinetics	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	HMDB51 (finetuned)	XDC	Top-1 Accuracy	68.9	# 4	Compare
Self-Supervised Action Recognition	UCF101 (finetuned)	XDC	3-fold Accuracy	95.5	# 2	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Source Paper	Compare
Self-Supervised Audio Classification	ESC-50	XDC	Top-1 Accuracy	85.4	# 6		See all

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit