TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Audio Classification	AudioSet	VATT-Base	Test mAP	0.394	# 36
Audio Classification	AudioSet	VATT-Base	AUC	0.971	# 7
Audio Classification	AudioSet	VATT-Base	d-prime	2.895	# 2
Action Classification	Kinetics-400	VATT-Large	Acc@1	82.1	# 73
Action Classification	Kinetics-400	VATT-Large	Acc@5	95.5	# 46
Action Classification	Kinetics-600	VATT-Large	Top-1 Accuracy	83.6	# 37
Action Classification	Kinetics-600	VATT-Large	Top-5 Accuracy	96.6	# 21
Action Classification	MiT	VATT-Large	Top 1 Accuracy	41.1	# 10
Action Classification	MiT	VATT-Large	Top 5 Accuracy	67.7	# 6
Zero-Shot Video Retrieval	MSR-VTT	VATT-MBS	text-to-video R@10	29.7	# 32
Zero-Shot Video Retrieval	MSR-VTT	VATT-MBS	text-to-video Median Rank	49	# 12
Zero-Shot Video Retrieval	YouCook2	VATT-MBS	text-to-video R@10	45.5	# 6
Zero-Shot Video Retrieval	YouCook2	VATT-MBS	text-to-video Mean Rank	13	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vatt-transformers-for-multimodal-self/zero-shot-video-retrieval-on-youcook2)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-youcook2?p=vatt-transformers-for-multimodal-self)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vatt-transformers-for-multimodal-self/action-classification-on-moments-in-time)](https://paperswithcode.com/sota/action-classification-on-moments-in-time?p=vatt-transformers-for-multimodal-self)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vatt-transformers-for-multimodal-self/zero-shot-video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-msr-vtt?p=vatt-transformers-for-multimodal-self)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vatt-transformers-for-multimodal-self/audio-classification-on-audioset)](https://paperswithcode.com/sota/audio-classification-on-audioset?p=vatt-transformers-for-multimodal-self)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vatt-transformers-for-multimodal-self/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=vatt-transformers-for-multimodal-self)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vatt-transformers-for-multimodal-self/action-classification-on-kinetics-400)](https://paperswithcode.com/sota/action-classification-on-kinetics-400?p=vatt-transformers-for-multimodal-self)`

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

NeurIPS 2021 · Hassan Akbari, Liangzhe Yuan, Rui Qian, Wei-Hong Chuang, Shih-Fu Chang, Yin Cui, Boqing Gong ·

We present a framework for learning multimodal representations from unlabeled data using convolution-free Transformer architectures. Specifically, our Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts multimodal representations that are rich enough to benefit a variety of downstream tasks. We train VATT end-to-end from scratch using multimodal contrastive losses and evaluate its performance by the downstream tasks of video action recognition, audio event classification, image classification, and text-to-video retrieval. Furthermore, we study a modality-agnostic, single-backbone Transformer by sharing weights among the three modalities. We show that the convolution-free VATT outperforms state-of-the-art ConvNet-based architectures in the downstream tasks. Especially, VATT's vision Transformer achieves the top-1 accuracy of 82.1% on Kinetics-400, 83.6% on Kinetics-600, 72.7% on Kinetics-700, and 41.1% on Moments in Time, new records while avoiding supervised pre-training. Transferring to image classification leads to 78.7% top-1 accuracy on ImageNet compared to 64.7% by training the same Transformer from scratch, showing the generalizability of our model despite the domain gap between videos and images. VATT's audio Transformer also sets a new record on waveform-based audio event recognition by achieving the mAP of 39.4% on AudioSet without any supervised pre-training. VATT's source code is publicly available.

PDF Abstract NeurIPS 2021 PDF NeurIPS 2021 Abstract

Code

Add Remove Mark official

google-research/google-research official

32,900

akashe/ProgrammingInterview

Tasks

Add Remove

Action Classification

Action Recognition

Action Recognition In Videos

Audio Classification

General Classification

Image Classification

Retrieval

Self-Supervised Learning

Temporal Action Localization

Text to Video Retrieval

Video Retrieval

Zero-Shot Video Retrieval

Datasets

ImageNet

UCF101

Kinetics

HMDB51

Kinetics 400

AudioSet

MSR-VTT

ESC-50

HowTo100M

YouCook2

Kinetics-600

MiT

Results from the Paper

Edit

Ranked #3 on Zero-Shot Video Retrieval on YouCook2 (text-to-video Mean Rank metric)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Audio Classification	AudioSet	VATT-Base	Test mAP	0.394	# 36	Compare
			AUC	0.971	# 7	Compare
			d-prime	2.895	# 2	Compare
Action Classification	Kinetics-400	VATT-Large	Acc@1	82.1	# 73	Compare
Action Classification	Kinetics-400	VATT-Large	Acc@5	95.5	# 46	Compare
Action Classification	Kinetics-600	VATT-Large	Top-1 Accuracy	83.6	# 37	Compare
Action Classification	Kinetics-600	VATT-Large	Top-5 Accuracy	96.6	# 21	Compare
Action Classification	MiT	VATT-Large	Top 1 Accuracy	41.1	# 10	Compare
Action Classification	MiT	VATT-Large	Top 5 Accuracy	67.7	# 6	Compare
Zero-Shot Video Retrieval	MSR-VTT	VATT-MBS	text-to-video R@10	29.7	# 32	Compare
Zero-Shot Video Retrieval	MSR-VTT	VATT-MBS	text-to-video Median Rank	49	# 12	Compare
Zero-Shot Video Retrieval	YouCook2	VATT-MBS	text-to-video R@10	45.5	# 6	Compare
Zero-Shot Video Retrieval	YouCook2	VATT-MBS	text-to-video Mean Rank	13	# 3	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • VATT • Vision Transformer

Edit Social Preview

VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove