TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Classification	Kinetics-600	🍷MerlotReserve-Base (no Audio)	Top-1 Accuracy	88.1	# 22
Action Classification	Kinetics-600	🍷MerlotReserve-Base (no Audio)	Top-5 Accuracy	95.8	# 32
Action Classification	Kinetics-600	🍷MerlotReserve-Base (+Audio)	Top-1 Accuracy	89.7	# 14
Action Classification	Kinetics-600	🍷MerlotReserve-Base (+Audio)	Top-5 Accuracy	96.6	# 21
Action Classification	Kinetics-600	🍷MerlotReserve-Large (no Audio)	Top-1 Accuracy	89.4	# 15
Action Classification	Kinetics-600	🍷MerlotReserve-Large (no Audio)	Top-5 Accuracy	96.3	# 27
Action Classification	Kinetics-600	🍷MerlotReserve-Large (+Audio)	Top-1 Accuracy	91.1	# 6
Action Classification	Kinetics-600	🍷MerlotReserve-Large (+Audio)	Top-5 Accuracy	97.1	# 18

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/merlot-reserve-neural-script-knowledge/action-classification-on-kinetics-600)](https://paperswithcode.com/sota/action-classification-on-kinetics-600?p=merlot-reserve-neural-script-knowledge)`

MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound

CVPR 2022 · Rowan Zellers, Jiasen Lu, Ximing Lu, Youngjae Yu, Yanpeng Zhao, Mohammadreza Salehi, Aditya Kusupati, Jack Hessel, Ali Farhadi, Yejin Choi ·

As humans, we navigate a multimodal world, building a holistic understanding from all our senses. We introduce MERLOT Reserve, a model that represents videos jointly over time -- through a new training objective that learns from audio, subtitles, and video frames. Given a video, we replace snippets of text and audio with a MASK token; the model learns by choosing the correct masked-out snippet. Our objective learns faster than alternatives, and performs well at scale: we pretrain on 20 million YouTube videos. Empirical results show that MERLOT Reserve learns strong multimodal representations. When finetuned, it sets state-of-the-art on Visual Commonsense Reasoning (VCR), TVQA, and Kinetics-600; outperforming prior work by 5%, 7%, and 1.5% respectively. Ablations show that these tasks benefit from audio pretraining -- even VCR, a QA task centered around images (without sound). Moreover, our objective enables out-of-the-box prediction, revealing strong multimodal commonsense understanding. In a fully zero-shot setting, our model obtains competitive results on four video tasks, even outperforming supervised approaches on the recently proposed Situated Reasoning (STAR) benchmark. We analyze why audio enables better vision-language representations, suggesting significant opportunities for future research. We conclude by discussing ethical and societal implications of multimodal pretraining.

PDF Abstract CVPR 2022 PDF CVPR 2022 Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Action Classification

Navigate

Video Understanding

Visual Commonsense Reasoning

Datasets

Kinetics test

VCR

Kinetics-600

TVQA

Results from the Paper

Edit

Ranked #6 on Action Classification on Kinetics-600 (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Classification	Kinetics-600	🍷MerlotReserve-Base (no Audio)	Top-1 Accuracy	88.1	# 22	Compare
Action Classification	Kinetics-600	🍷MerlotReserve-Base (no Audio)	Top-5 Accuracy	95.8	# 32	Compare
Action Classification	Kinetics-600	🍷MerlotReserve-Base (+Audio)	Top-1 Accuracy	89.7	# 14	Compare
Action Classification	Kinetics-600	🍷MerlotReserve-Base (+Audio)	Top-5 Accuracy	96.6	# 21	Compare
Action Classification	Kinetics-600	🍷MerlotReserve-Large (no Audio)	Top-1 Accuracy	89.4	# 15	Compare
Action Classification	Kinetics-600	🍷MerlotReserve-Large (no Audio)	Top-5 Accuracy	96.3	# 27	Compare
Action Classification	Kinetics-600	🍷MerlotReserve-Large (+Audio)	Top-1 Accuracy	91.1	# 6	Compare
Action Classification	Kinetics-600	🍷MerlotReserve-Large (+Audio)	Top-5 Accuracy	97.1	# 18	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

MERLOT Reserve: Neural Script Knowledge through Vision and Language and Sound

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove