TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio Classification	AudioSet	MMV	Test mAP	0.309	# 38
Self-Supervised Audio Classification	AudioSet (MLP)	MMV	Top-1 Accuracy	29.7	# 2
Self-Supervised Audio Classification	ESC-50	MMV	Top-1 Accuracy	85.6	# 5
Self-Supervised Action Recognition	HMDB51 (finetuned)	MMV	Top-1 Accuracy	70.1	# 2
Self-Supervised Action Recognition	Kinetics-600	MMV	Top-1 Accuracy	55.5	# 5
Self-Supervised Action Recognition	UCF101	MMV TSM-50x2	3-fold Accuracy	95.2	# 8
Self-Supervised Action Recognition	UCF101	MMV TSM-50x2	Pre-Training Dataset	Audioset + Howto100M	# 1
Self-Supervised Action Recognition	UCF101	MMV TSM-50x2	Frozen	false	# 1
Self-Supervised Action Recognition	UCF101 (finetuned)	MMV	3-fold Accuracy	91.5	# 7

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-multimodal-versatile-networks/self-supervised-audio-classification-on)](https://paperswithcode.com/sota/self-supervised-audio-classification-on?p=self-supervised-multimodal-versatile-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-multimodal-versatile-networks/self-supervised-action-recognition-on-hmdb51-1)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-hmdb51-1?p=self-supervised-multimodal-versatile-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-multimodal-versatile-networks/self-supervised-audio-classification-on-esc)](https://paperswithcode.com/sota/self-supervised-audio-classification-on-esc?p=self-supervised-multimodal-versatile-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-multimodal-versatile-networks/self-supervised-action-recognition-on)](https://paperswithcode.com/sota/self-supervised-action-recognition-on?p=self-supervised-multimodal-versatile-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-multimodal-versatile-networks/self-supervised-action-recognition-on-ucf101-1)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-ucf101-1?p=self-supervised-multimodal-versatile-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-multimodal-versatile-networks/self-supervised-action-recognition-on-ucf101)](https://paperswithcode.com/sota/self-supervised-action-recognition-on-ucf101?p=self-supervised-multimodal-versatile-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/self-supervised-multimodal-versatile-networks/audio-classification-on-audioset)](https://paperswithcode.com/sota/audio-classification-on-audioset?p=self-supervised-multimodal-versatile-networks)`

Self-Supervised MultiModal Versatile Networks

NeurIPS 2020 · Jean-Baptiste Alayrac, Adrià Recasens, Rosalia Schneider, Relja Arandjelović, Jason Ramapuram, Jeffrey De Fauw, Lucas Smaira, Sander Dieleman, Andrew Zisserman ·

Videos are a rich source of multi-modal supervision. In this work, we learn representations using self-supervision by leveraging three modalities naturally present in videos: visual, audio and language streams. To this end, we introduce the notion of a multimodal versatile network -- a network that can ingest multiple modalities and whose representations enable downstream tasks in multiple modalities. In particular, we explore how best to combine the modalities, such that fine-grained representations of the visual and audio modalities can be maintained, whilst also integrating text into a common embedding. Driven by versatility, we also introduce a novel process of deflation, so that the networks can be effortlessly applied to the visual data in the form of video or a static image. We demonstrate how such networks trained on large collections of unlabelled video data can be applied on video, video-text, image and audio tasks. Equipped with these representations, we obtain state-of-the-art performance on multiple challenging benchmarks including UCF101, HMDB51, Kinetics600, AudioSet and ESC-50 when compared to previous self-supervised work. Our models are publicly available.

PDF Abstract NeurIPS 2020 PDF NeurIPS 2020 Abstract

Code

Add Remove Mark official

deepmind/deepmind-research official

12,829

Tasks

Add Remove

Action Recognition In Videos

Audio Classification

Self-Supervised Action Recognition

Self-Supervised Audio Classification

Datasets

UCF101

Kinetics

HMDB51

AudioSet

MSR-VTT

ESC-50

HowTo100M

YouCook2

Kinetics-600

Results from the Paper

Edit

Ranked #2 on Self-Supervised Action Recognition on HMDB51 (finetuned)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Self-Supervised Action Recognition	HMDB51 (finetuned)	MMV	Top-1 Accuracy	70.1	# 2	Compare
Self-Supervised Action Recognition	Kinetics-600	MMV	Top-1 Accuracy	55.5	# 5	Compare
Self-Supervised Action Recognition	UCF101	MMV TSM-50x2	3-fold Accuracy	95.2	# 8	Compare
			Pre-Training Dataset	Audioset + Howto100M	# 1	Compare
			Frozen	false	# 1	Compare
Self-Supervised Action Recognition	UCF101 (finetuned)	MMV	3-fold Accuracy	91.5	# 7	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Compare
Audio Classification	AudioSet	MMV	Test mAP	0.309	# 38	See all
Self-Supervised Audio Classification	AudioSet (MLP)	MMV	Top-1 Accuracy	29.7	# 2	See all
Self-Supervised Audio Classification	ESC-50	MMV	Top-1 Accuracy	85.6	# 5	See all

Methods

Add Remove

Deflation

Edit Social Preview

Self-Supervised MultiModal Versatile Networks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit