TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Question Answering	How2QA	Hero w/ pre-training	Accuracy	77.75	# 5
Video Question Answering	TVQA	Hero w/ pre-training	Accuracy	74.24	# 5
Video Retrieval	TVR	Hero w/ pre-training	R@1	4.34	# 1
Video Retrieval	TVR	Hero w/ pre-training	R@10	13.97	# 1
Video Retrieval	TVR	Hero w/ pre-training	R@100	21.78	# 1
Video Corpus Moment Retrieval	TVR	HERO (Li et al., 2020)	R@1	5.13	# 3
Video Corpus Moment Retrieval	TVR	HERO (Li et al., 2020)	R@10	16.26	# 3
Video Corpus Moment Retrieval	TVR	HERO (Li et al., 2020)	R@100	24.56	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hero-hierarchical-encoder-for-video-language/video-retrieval-on-tvr)](https://paperswithcode.com/sota/video-retrieval-on-tvr?p=hero-hierarchical-encoder-for-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hero-hierarchical-encoder-for-video-language/video-corpus-moment-retrieval-on-tvr)](https://paperswithcode.com/sota/video-corpus-moment-retrieval-on-tvr?p=hero-hierarchical-encoder-for-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hero-hierarchical-encoder-for-video-language/video-question-answering-on-how2qa)](https://paperswithcode.com/sota/video-question-answering-on-how2qa?p=hero-hierarchical-encoder-for-video-language)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/hero-hierarchical-encoder-for-video-language/video-question-answering-on-tvqa)](https://paperswithcode.com/sota/video-question-answering-on-tvqa?p=hero-hierarchical-encoder-for-video-language)`

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

EMNLP 2020 · Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu, Jingjing Liu ·

We present HERO, a novel framework for large-scale video+language omni-representation learning. HERO encodes multimodal inputs in a hierarchical structure, where local context of a video frame is captured by a Cross-modal Transformer via multimodal fusion, and global video context is captured by a Temporal Transformer. In addition to standard Masked Language Modeling (MLM) and Masked Frame Modeling (MFM) objectives, we design two new pre-training tasks: (i) Video-Subtitle Matching (VSM), where the model predicts both global and local temporal alignment; and (ii) Frame Order Modeling (FOM), where the model predicts the right order of shuffled video frames. HERO is jointly trained on HowTo100M and large-scale TV datasets to gain deep understanding of complex social dynamics with multi-character interactions. Comprehensive experiments demonstrate that HERO achieves new state of the art on multiple benchmarks over Text-based Video/Video-moment Retrieval, Video Question Answering (QA), Video-and-language Inference and Video Captioning tasks across different domains. We also introduce two new challenging benchmarks How2QA and How2R for Video QA and Retrieval, collected from diverse video content over multimodalities.

PDF Abstract EMNLP 2020 PDF EMNLP 2020 Abstract

Code

Add Remove Mark official

linjieli222/HERO official

226

linjieli222/hero_video_feature_extr…

grounded-sport-convai/goal-baselines

Tasks

Add Remove

Language Modelling

Masked Language Modeling

Moment Retrieval

Question Answering

Representation Learning

Retrieval

Video Captioning

Video Corpus Moment Retrieval

Video Question Answering

Video Retrieval

Datasets

Introduced in the Paper:

How2QA

How2R

Used in the Paper:

HowTo100M

DiDeMo

YouCook2

TVQA

TVQA+ TVR

Violin

TVC

Results from the Paper

Edit

Ranked #1 on Video Retrieval on TVR

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Question Answering	How2QA	Hero w/ pre-training	Accuracy	77.75	# 5	Compare
Video Question Answering	TVQA	Hero w/ pre-training	Accuracy	74.24	# 5	Compare
Video Retrieval	TVR	Hero w/ pre-training	R@1	4.34	# 1	Compare
			R@10	13.97	# 1	Compare
			R@100	21.78	# 1	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Compare
Video Corpus Moment Retrieval	TVR	HERO (Li et al., 2020)	R@1	5.13	# 3	See all
			R@10	16.26	# 3	See all
			R@100	24.56	# 3	See all

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • ReLU • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

HERO: Hierarchical Encoder for Video+Language Omni-representation Pre-training

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit