TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Action Recognition	Charades-Ego	EgoVLP	mAP	32.1	# 4
Object State Change Classification	Ego4D	EgoVLP	Acc	73.9	# 2
Natural Language Queries	Ego4D	EgoVLP	R@1 IoU=0.3	10.46	# 5
Natural Language Queries	Ego4D	EgoVLP	R@5 IoU=0.3	16.76	# 4
Natural Language Queries	Ego4D	EgoVLP	R@1 IoU=0.5	6.24	# 5
Natural Language Queries	Ego4D	EgoVLP	R@5 IoU=0.5	11.29	# 4
Natural Language Queries	Ego4D	EgoVLP	R@1 Mean(0.3 and 0.5)	8.35	# 4
Moment Queries	Ego4D	EgoVLP	Avg mAP (0.1-0.5)	11.39	# 5
Question Answering	EgoTaskQA	EgoVLP	Direct	42.51	# 2
Multi-Instance Retrieval	EPIC-KITCHENS-100	EgoVLP	mAP(V2T)	49.9	# 5
Multi-Instance Retrieval	EPIC-KITCHENS-100	EgoVLP	mAP(T2V)	40.5	# 5
Multi-Instance Retrieval	EPIC-KITCHENS-100	EgoVLP	mAP (Avg)	45	# 8
Multi-Instance Retrieval	EPIC-KITCHENS-100	EgoVLP	nDCG (V2T)	60.9	# 5
Multi-Instance Retrieval	EPIC-KITCHENS-100	EgoVLP	nDCG (T2V)	57.9	# 4
Multi-Instance Retrieval	EPIC-KITCHENS-100	EgoVLP	nDCG (Avg)	59.4	# 6
Video Summarization	Query-Focused Video Summarization Dataset	EgoVLP	F1 (avg)	49.72	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/egocentric-video-language-pretraining/object-state-change-classification-on-ego4d)](https://paperswithcode.com/sota/object-state-change-classification-on-ego4d?p=egocentric-video-language-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/egocentric-video-language-pretraining/question-answering-on-egotaskqa)](https://paperswithcode.com/sota/question-answering-on-egotaskqa?p=egocentric-video-language-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/egocentric-video-language-pretraining/video-summarization-on-query-focused-video)](https://paperswithcode.com/sota/video-summarization-on-query-focused-video?p=egocentric-video-language-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/egocentric-video-language-pretraining/action-recognition-on-charades-ego)](https://paperswithcode.com/sota/action-recognition-on-charades-ego?p=egocentric-video-language-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/egocentric-video-language-pretraining/natural-language-queries-on-ego4d)](https://paperswithcode.com/sota/natural-language-queries-on-ego4d?p=egocentric-video-language-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/egocentric-video-language-pretraining/moment-queries-on-ego4d)](https://paperswithcode.com/sota/moment-queries-on-ego4d?p=egocentric-video-language-pretraining)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/egocentric-video-language-pretraining/multi-instance-retrieval-on-epic-kitchens-100)](https://paperswithcode.com/sota/multi-instance-retrieval-on-epic-kitchens-100?p=egocentric-video-language-pretraining)`

Egocentric Video-Language Pretraining

3 Jun 2022 · Kevin Qinghong Lin, Alex Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Zhongcong Xu, Difei Gao, RongCheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Hongfa Wang, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou ·

Video-Language Pretraining (VLP), which aims to learn transferable representation to advance a wide range of video-text downstream tasks, has recently received increasing attention. Best performing works rely on large-scale, 3rd-person video-text datasets, such as HowTo100M. In this work, we exploit the recently released Ego4D dataset to pioneer Egocentric VLP along three directions. (i) We create EgoClip, a 1st-person video-text pretraining dataset comprising 3.8M clip-text pairs well-chosen from Ego4D, covering a large variety of human daily activities. (ii) We propose a novel pretraining objective, dubbed EgoNCE, which adapts video-text contrastive learning to the egocentric domain by mining egocentric-aware positive and negative samples. (iii) We introduce EgoMCQ, a development benchmark that is close to EgoClip and hence can support effective validation and fast exploration of our design decisions in EgoClip and EgoNCE. Furthermore, we demonstrate strong performance on five egocentric downstream tasks across three datasets: video-text retrieval on EPIC-KITCHENS-100; action recognition on Charades-Ego; natural language query, moment query, and object state change classification on Ego4D challenge benchmarks. The dataset and code are available at https://github.com/showlab/EgoVLP.

PDF Abstract

Code

Add Remove Mark official

showlab/egovlp official

205

zhaoyue-zephyrus/avion

Tasks

Add Remove

Action Recognition

Contrastive Learning

Moment Queries

Multi-Instance Retrieval

Natural Language Queries

Object State Change Classification

Object State Change Classification on Ego4D

Question Answering

Retrieval

Temporal Localization

Text Retrieval

Video Summarization

Video-Text Retrieval

Datasets

HowTo100M

WebVid

EPIC-KITCHENS-100 Charades-Ego

Ego4D

EgoTaskQA Query-Focused Video Summarization Dataset

Results from the Paper

Edit

Ranked #2 on Video Summarization on Query-Focused Video Summarization Dataset

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Action Recognition	Charades-Ego	EgoVLP	mAP	32.1	# 4	Compare
Object State Change Classification	Ego4D	EgoVLP	Acc	73.9	# 2	Compare
Natural Language Queries	Ego4D	EgoVLP	R@1 IoU=0.3	10.46	# 5	Compare
			R@5 IoU=0.3	16.76	# 4	Compare
			R@1 IoU=0.5	6.24	# 5	Compare
			R@5 IoU=0.5	11.29	# 4	Compare
			R@1 Mean(0.3 and 0.5)	8.35	# 4	Compare
Moment Queries	Ego4D	EgoVLP	Avg mAP (0.1-0.5)	11.39	# 5	Compare
Question Answering	EgoTaskQA	EgoVLP	Direct	42.51	# 2	Compare
Multi-Instance Retrieval	EPIC-KITCHENS-100	EgoVLP	mAP(V2T)	49.9	# 5	Compare
			mAP(T2V)	40.5	# 5	Compare
			mAP (Avg)	45	# 8	Compare
			nDCG (V2T)	60.9	# 5	Compare
			nDCG (T2V)	57.9	# 4	Compare
			nDCG (Avg)	59.4	# 6	Compare
Video Summarization	Query-Focused Video Summarization Dataset	EgoVLP	F1 (avg)	49.72	# 2	Compare

Methods

Add Remove

Contrastive Learning

Edit Social Preview

Egocentric Video-Language Pretraining

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove