TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio Classification	DCASE	CrissCross (AudioSet)	Top-1 Accuracy	97	# 1
Audio Classification	DCASE	CrissCross (AudioSet)	PRE-TRAINING DATASET	AudioSet	# 1
Audio Classification	DCASE	CrissCross (Kinetics-400)	Top-1 Accuracy	96	# 2
Audio Classification	DCASE	CrissCross (Kinetics-400)	PRE-TRAINING DATASET	Kinetics-400	# 1
Audio Classification	DCASE	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	# 5
Audio Classification	DCASE	CrissCross (Kinetics-Sound)	PRE-TRAINING DATASET	Kinetics-Sound	# 1
Self-Supervised Audio Classification	ESC-50	CrissCross (AudioSet)	Top-1 Accuracy	90.5	# 2
Self-Supervised Audio Classification	ESC-50	CrissCross (Kinetics400)	Top-1 Accuracy	86.8	# 4
Self-Supervised Action Recognition	HMDB51	CrissCross (Kinetics-Sound)	Top-1 Accuracy	60.5	# 26
Self-Supervised Action Recognition	HMDB51	CrissCross (Kinetics-Sound)	Pre-Training Dataset	Kinetics-Sound	# 1
Self-Supervised Action Recognition	HMDB51	CrissCross (Kinetics-Sound)	Frozen	false	# 1
Self-supervised Video Retrieval	HMDB51	CrissCross (R2+1D)	Top-1	26.4	# 6
Self-supervised Video Retrieval	HMDB51	CrissCross (R2+1D)	Pretrain	Kinetics400	# 1
Self-Supervised Action Recognition	HMDB51	CrissCross (AudioSet)	Top-1 Accuracy	66.8	# 11
Self-Supervised Action Recognition	HMDB51	CrissCross (AudioSet)	Pre-Training Dataset	AudioSet	# 1
Self-Supervised Action Recognition	HMDB51	CrissCross (AudioSet)	Frozen	false	# 1
Self-Supervised Action Recognition	HMDB51	CrissCross (Kinetics400)	Top-1 Accuracy	64.7	# 16
Self-Supervised Action Recognition	HMDB51	CrissCross (Kinetics400)	Pre-Training Dataset	Kinetics400	# 1
Self-Supervised Action Recognition	HMDB51	CrissCross (Kinetics400)	Frozen	false	# 1
Self-Supervised Action Recognition	UCF101	CrissCross (Kinetics400)	3-fold Accuracy	91.5	# 18
Self-Supervised Action Recognition	UCF101	CrissCross (Kinetics400)	Pre-Training Dataset	Kinetics400	# 1
Self-Supervised Action Recognition	UCF101	CrissCross (Kinetics400)	Frozen	false	# 1
Self-Supervised Action Recognition	UCF101	CrissCross (Kinetics-Sound)	3-fold Accuracy	88.3	# 25
Self-Supervised Action Recognition	UCF101	CrissCross (Kinetics-Sound)	Pre-Training Dataset	Kinetics-Sound	# 1
Self-Supervised Action Recognition	UCF101	CrissCross (Kinetics-Sound)	Frozen	false	# 1
Self-supervised Video Retrieval	UCF101	CrissCross (R2+1D)	Top-1	63.8	# 5
Self-supervised Video Retrieval	UCF101	CrissCross (R2+1D)	Pretrain	Kinetics400	# 1
Self-Supervised Action Recognition	UCF101	CrissCross (AudioSet)	3-fold Accuracy	92.4	# 16
Self-Supervised Action Recognition	UCF101	CrissCross (AudioSet)	Pre-Training Dataset	AudioSet	# 1
Self-Supervised Action Recognition	UCF101	CrissCross (AudioSet)	Frozen	false	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-audio-visual-representation/audio-classification-on-dcase)](https://paperswithcode.com/sota/audio-classification-on-dcase?p=self-supervised-audio-visual-representation)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-audio-visual-representation/self-supervised-audio-classification-on-esc)](https://paperswithcode.com/sota/self-supervised-audio-classification-on-esc?p=self-supervised-audio-visual-representation)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-audio-visual-representation/self-supervised-video-retrieval-on-ucf101)](https://paperswithcode.com/sota/self-supervised-video-retrieval-on-ucf101?p=self-supervised-audio-visual-representation)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-audio-visual-representation/self-supervised-video-retrieval-on-hmdb51)](https://paperswithcode.com/sota/self-supervised-video-retrieval-on-hmdb51?p=self-supervised-audio-visual-representation)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-audio-visual-representation/self-supervised-action-recognition-on-hmdb51)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-hmdb51?p=self-supervised-audio-visual-representation)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-audio-visual-representation/self-supervised-action-recognition-on-ucf101)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-ucf101?p=self-supervised-audio-visual-representation)`

Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Synchronicity

9 Nov 2021 · Pritam Sarkar, Ali Etemad ·

We present CrissCross, a self-supervised framework for learning audio-visual representations. A novel notion is introduced in our framework whereby in addition to learning the intra-modal and standard 'synchronous' cross-modal relations, CrissCross also learns 'asynchronous' cross-modal relationships. We perform in-depth studies showing that by relaxing the temporal synchronicity between the audio and visual modalities, the network learns strong generalized representations useful for a variety of downstream tasks. To pretrain our proposed solution, we use 3 different datasets with varying sizes, Kinetics-Sound, Kinetics400, and AudioSet. The learned representations are evaluated on a number of downstream tasks namely action recognition, sound classification, and action retrieval. Our experiments show that CrissCross either outperforms or achieves performances on par with the current state-of-the-art self-supervised methods on action recognition and action retrieval with UCF101 and HMDB51, as well as sound classification with ESC50 and DCASE. Moreover, CrissCross outperforms fully-supervised pretraining while pretrained on Kinetics-Sound. The codes and pretrained models are available on the project website.

PDF Abstract

Code

Add Remove Mark official

pritamqu/CrissCross official

Tasks

Add Remove

Audio Classification

Retrieval

Self-Supervised Action Recognition

Self-Supervised Audio Classification

Self-Supervised Learning

Self-Supervised Sound Classification

Self-supervised Video Retrieval

Sound Classification

Datasets

UCF101

Kinetics

HMDB51

Kinetics 400

AudioSet

ESC-50

DCASE 2017

Results from the Paper

Edit

Ranked #1 on Audio Classification on DCASE

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Audio Classification	DCASE	CrissCross (AudioSet)	Top-1 Accuracy	97	# 1	Compare
Audio Classification	DCASE	CrissCross (AudioSet)	PRE-TRAINING DATASET	AudioSet	# 1	Compare
Audio Classification	DCASE	CrissCross (Kinetics-400)	Top-1 Accuracy	96	# 2	Compare
Audio Classification	DCASE	CrissCross (Kinetics-400)	PRE-TRAINING DATASET	Kinetics-400	# 1	Compare
Audio Classification	DCASE	CrissCross (Kinetics-Sound)	Top-1 Accuracy	93	# 5	Compare
Audio Classification	DCASE	CrissCross (Kinetics-Sound)	PRE-TRAINING DATASET	Kinetics-Sound	# 1	Compare
Self-Supervised Audio Classification	ESC-50	CrissCross (AudioSet)	Top-1 Accuracy	90.5	# 2	Compare
Self-Supervised Audio Classification	ESC-50	CrissCross (Kinetics400)	Top-1 Accuracy	86.8	# 4	Compare
Self-Supervised Action Recognition	HMDB51	CrissCross (Kinetics-Sound)	Top-1 Accuracy	60.5	# 26	Compare
			Pre-Training Dataset	Kinetics-Sound	# 1	Compare
			Frozen	false	# 1	Compare
Self-supervised Video Retrieval	HMDB51	CrissCross (R2+1D)	Top-1	26.4	# 6	Compare
Self-supervised Video Retrieval	HMDB51	CrissCross (R2+1D)	Pretrain	Kinetics400	# 1	Compare
Self-Supervised Action Recognition	HMDB51	CrissCross (AudioSet)	Top-1 Accuracy	66.8	# 11	Compare
			Pre-Training Dataset	AudioSet	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	HMDB51	CrissCross (Kinetics400)	Top-1 Accuracy	64.7	# 16	Compare
			Pre-Training Dataset	Kinetics400	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	UCF101	CrissCross (Kinetics400)	3-fold Accuracy	91.5	# 18	Compare
			Pre-Training Dataset	Kinetics400	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	UCF101	CrissCross (Kinetics-Sound)	3-fold Accuracy	88.3	# 25	Compare
			Pre-Training Dataset	Kinetics-Sound	# 1	Compare
			Frozen	false	# 1	Compare
Self-supervised Video Retrieval	UCF101	CrissCross (R2+1D)	Top-1	63.8	# 5	Compare
Self-supervised Video Retrieval	UCF101	CrissCross (R2+1D)	Pretrain	Kinetics400	# 1	Compare
Self-Supervised Action Recognition	UCF101	CrissCross (AudioSet)	3-fold Accuracy	92.4	# 16	Compare
			Pre-Training Dataset	AudioSet	# 1	Compare
			Frozen	false	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Self-Supervised Audio-Visual Representation Learning with Relaxed Cross-Modal Synchronicity

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove