TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Dense Video Captioning	ActivityNet Captions	Vid2Seq	METEOR	17	# 1
Dense Video Captioning	ActivityNet Captions	Vid2Seq	CIDEr	28	# 4
Video Captioning	MSR-VTT	Vid2Seq	CIDEr	64.6	# 11
Video Captioning	MSR-VTT	Vid2Seq	METEOR	30.8	# 8
Video Captioning	MSVD	Vid2Seq	CIDEr	146.2	# 7
Video Captioning	MSVD	Vid2Seq	METEOR	45.3	# 4
Dense Video Captioning	ViTT	Vid2Seq	SODA	0.135	# 2
Dense Video Captioning	ViTT	Vid2Seq	CIDEr	43.5	# 2
Dense Video Captioning	ViTT	Vid2Seq	METEOR	8.5	# 2
Dense Video Captioning	YouCook2	Vid2Seq	METEOR	9.3	# 2
Dense Video Captioning	YouCook2	Vid2Seq	CIDEr	47.1	# 2
Dense Video Captioning	YouCook2	Vid2Seq	SODA	7.9	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vid2seq-large-scale-pretraining-of-a-visual/dense-video-captioning-on-activitynet)](https://paperswithcode.com/sota/dense-video-captioning-on-activitynet?p=vid2seq-large-scale-pretraining-of-a-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vid2seq-large-scale-pretraining-of-a-visual/dense-video-captioning-on-vitt)](https://paperswithcode.com/sota/dense-video-captioning-on-vitt?p=vid2seq-large-scale-pretraining-of-a-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vid2seq-large-scale-pretraining-of-a-visual/dense-video-captioning-on-youcook2)](https://paperswithcode.com/sota/dense-video-captioning-on-youcook2?p=vid2seq-large-scale-pretraining-of-a-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vid2seq-large-scale-pretraining-of-a-visual/video-captioning-on-msvd-1)](https://paperswithcode.com/sota/video-captioning-on-msvd-1?p=vid2seq-large-scale-pretraining-of-a-visual)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vid2seq-large-scale-pretraining-of-a-visual/video-captioning-on-msr-vtt-1)](https://paperswithcode.com/sota/video-captioning-on-msr-vtt-1?p=vid2seq-large-scale-pretraining-of-a-visual)`

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

CVPR 2023 · Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic, Cordelia Schmid ·

In this work, we introduce Vid2Seq, a multi-modal single-stage dense event captioning model pretrained on narrated videos which are readily-available at scale. The Vid2Seq architecture augments a language model with special time tokens, allowing it to seamlessly predict event boundaries and textual descriptions in the same output sequence. Such a unified model requires large-scale training data, which is not available in current annotated datasets. We show that it is possible to leverage unlabeled narrated videos for dense video captioning, by reformulating sentence boundaries of transcribed speech as pseudo event boundaries, and using the transcribed speech sentences as pseudo event captions. The resulting Vid2Seq model pretrained on the YT-Temporal-1B dataset improves the state of the art on a variety of dense video captioning benchmarks including YouCook2, ViTT and ActivityNet Captions. Vid2Seq also generalizes well to the tasks of video paragraph captioning and video clip captioning, and to few-shot settings. Our code is publicly available at https://antoyang.github.io/vid2seq.html.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

google-research/scenic official

3,026

antoyang/VidChapters

151

KastanDay/video-pretrained-transfor…

Tasks

Add Remove

Dense Video Captioning

Language Modelling

Sentence

Video Captioning

Datasets

MSR-VTT

MSVD

HowTo100M

ActivityNet Captions

YouCook2

ViTT

Results from the Paper

Edit

Ranked #1 on Dense Video Captioning on ActivityNet Captions (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Dense Video Captioning	ActivityNet Captions	Vid2Seq	METEOR	17	# 1	Compare
Dense Video Captioning	ActivityNet Captions	Vid2Seq	CIDEr	28	# 4	Compare
Video Captioning	MSR-VTT	Vid2Seq	CIDEr	64.6	# 11	Compare
Video Captioning	MSR-VTT	Vid2Seq	METEOR	30.8	# 8	Compare
Video Captioning	MSVD	Vid2Seq	CIDEr	146.2	# 7	Compare
Video Captioning	MSVD	Vid2Seq	METEOR	45.3	# 4	Compare
Dense Video Captioning	ViTT	Vid2Seq	SODA	0.135	# 2	Compare
			CIDEr	43.5	# 2	Compare
			METEOR	8.5	# 2	Compare
Dense Video Captioning	YouCook2	Vid2Seq	METEOR	9.3	# 2	Compare
			CIDEr	47.1	# 2	Compare
			SODA	7.9	# 2	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • CLIP • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove