TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Retrieval	DiDeMo	Cap4Video	text-to-video R@1	52.0	# 22
Video Retrieval	DiDeMo	Cap4Video	text-to-video R@5	79.4	# 13
Video Retrieval	DiDeMo	Cap4Video	text-to-video R@10	87.5	# 11
Video Retrieval	DiDeMo	Cap4Video	text-to-video Median Rank	1	# 1
Video Retrieval	DiDeMo	Cap4Video	text-to-video Mean Rank	10.5	# 1
Video Retrieval	DiDeMo	Cap4Video	video-to-text R@1	51.2	# 7
Video Retrieval	DiDeMo	Cap4Video	video-to-text R@10	87.4	# 3
Video Retrieval	DiDeMo	Cap4Video	video-to-text Median Rank	1	# 1
Video Retrieval	DiDeMo	Cap4Video	video-to-text Mean Rank	7.3	# 2
Video Retrieval	DiDeMo	Cap4Video	video-to-text R@5	78.5	# 4
Video Retrieval	MSR-VTT-1kA	Cap4Video	text-to-video Mean Rank	12.4	# 11
Video Retrieval	MSR-VTT-1kA	Cap4Video	text-to-video R@1	51.4	# 15
Video Retrieval	MSR-VTT-1kA	Cap4Video	text-to-video R@5	75.7	# 15
Video Retrieval	MSR-VTT-1kA	Cap4Video	text-to-video R@10	83.9	# 19
Video Retrieval	MSR-VTT-1kA	Cap4Video	text-to-video Median Rank	1	# 1
Video Retrieval	MSR-VTT-1kA	Cap4Video	video-to-text R@1	49.0	# 10
Video Retrieval	MSR-VTT-1kA	Cap4Video	video-to-text R@5	75.2	# 9
Video Retrieval	MSR-VTT-1kA	Cap4Video	video-to-text R@10	85.0	# 8
Video Retrieval	MSR-VTT-1kA	Cap4Video	video-to-text Median Rank	2	# 7
Video Retrieval	MSR-VTT-1kA	Cap4Video	video-to-text Mean Rank	8.0	# 8
Video Retrieval	MSVD	Cap4Video	text-to-video R@1	51.8	# 9
Video Retrieval	MSVD	Cap4Video	text-to-video R@5	80.8	# 8
Video Retrieval	MSVD	Cap4Video	text-to-video R@10	88.3	# 8
Video Retrieval	MSVD	Cap4Video	text-to-video Median Rank	1	# 1
Video Retrieval	MSVD	Cap4Video	text-to-video Mean Rank	8.3	# 3
Video Retrieval	MSVD	Cap4Video	video-to-text R@1	70.0	# 5
Video Retrieval	MSVD	Cap4Video	video-to-text R@5	93.2	# 3
Video Retrieval	MSVD	Cap4Video	video-to-text R@10	96.2	# 4
Video Retrieval	MSVD	Cap4Video	video-to-text Median Rank	1	# 1
Video Retrieval	MSVD	Cap4Video	video-to-text Mean Rank	2.4	# 1
Video Retrieval	VATEX	Cap4Video	text-to-video R@1	66.6	# 7
Video Retrieval	VATEX	Cap4Video	text-to-video R@10	97.0	# 4
Video Retrieval	VATEX	Cap4Video	video-to-text R@1	80.9	# 4
Video Retrieval	VATEX	Cap4Video	video-to-text R@10	99.6	# 1
Video Retrieval	VATEX	Cap4Video	text-to-video R@5	93.1	# 1
Video Retrieval	VATEX	Cap4Video	text-to-video MedianR	1	# 1
Video Retrieval	VATEX	Cap4Video	text-to-video MeanR	2.7	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cap4video-what-can-auxiliary-captions-do-for/video-retrieval-on-vatex)](https://paperswithcode.com/sota/video-retrieval-on-vatex?p=cap4video-what-can-auxiliary-captions-do-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cap4video-what-can-auxiliary-captions-do-for/video-retrieval-on-msvd)](https://paperswithcode.com/sota/video-retrieval-on-msvd?p=cap4video-what-can-auxiliary-captions-do-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cap4video-what-can-auxiliary-captions-do-for/video-retrieval-on-msr-vtt-1ka)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt-1ka?p=cap4video-what-can-auxiliary-captions-do-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cap4video-what-can-auxiliary-captions-do-for/video-retrieval-on-didemo)](https://paperswithcode.com/sota/video-retrieval-on-didemo?p=cap4video-what-can-auxiliary-captions-do-for)`

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

CVPR 2023 · Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang ·

Most existing text-video retrieval methods focus on cross-modal matching between the visual content of videos and textual query sentences. However, in real-world scenarios, online videos are often accompanied by relevant text information such as titles, tags, and even subtitles, which can be utilized to match textual queries. This insight has motivated us to propose a novel approach to text-video retrieval, where we directly generate associated captions from videos using zero-shot video captioning with knowledge from web-scale pre-trained models (e.g., CLIP and GPT-2). Given the generated captions, a natural question arises: what benefits do they bring to text-video retrieval? To answer this, we introduce Cap4Video, a new framework that leverages captions in three ways: i) Input data: video-caption pairs can augment the training data. ii) Intermediate feature interaction: we perform cross-modal feature interaction between the video and caption to produce enhanced video representations. iii) Output score: the Query-Caption matching branch can complement the original Query-Video matching branch for text-video retrieval. We conduct comprehensive ablation studies to demonstrate the effectiveness of our approach. Without any post-processing, Cap4Video achieves state-of-the-art performance on four standard text-video retrieval benchmarks: MSR-VTT (51.4%), VATEX (66.6%), MSVD (51.8%), and DiDeMo (52.0%). The code is available at https://github.com/whwu95/Cap4Video .

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

whwu95/Cap4Video official

202

whwu95/text4vis

196

whwu95/GPT4Vis

191

whwu95/BIKE

149

Tasks

Add Remove

Data Augmentation

Retrieval

Video Captioning

Video Retrieval

Datasets

MSR-VTT

MSVD

DiDeMo

VATEX

Results from the Paper

Edit

Ranked #7 on Video Retrieval on VATEX

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Retrieval	DiDeMo	Cap4Video	text-to-video R@1	52.0	# 22	Compare
			text-to-video R@5	79.4	# 13	Compare
			text-to-video R@10	87.5	# 11	Compare
			text-to-video Median Rank	1	# 1	Compare
			text-to-video Mean Rank	10.5	# 1	Compare
			video-to-text R@1	51.2	# 7	Compare
			video-to-text R@10	87.4	# 3	Compare
			video-to-text Median Rank	1	# 1	Compare
			video-to-text Mean Rank	7.3	# 2	Compare
			video-to-text R@5	78.5	# 4	Compare
Video Retrieval	MSR-VTT-1kA	Cap4Video	text-to-video Mean Rank	12.4	# 11	Compare
			text-to-video R@1	51.4	# 15	Compare
			text-to-video R@5	75.7	# 15	Compare
			text-to-video R@10	83.9	# 19	Compare
			text-to-video Median Rank	1	# 1	Compare
			video-to-text R@1	49.0	# 10	Compare
			video-to-text R@5	75.2	# 9	Compare
			video-to-text R@10	85.0	# 8	Compare
			video-to-text Median Rank	2	# 7	Compare
			video-to-text Mean Rank	8.0	# 8	Compare
Video Retrieval	MSVD	Cap4Video	text-to-video R@1	51.8	# 9	Compare
			text-to-video R@5	80.8	# 8	Compare
			text-to-video R@10	88.3	# 8	Compare
			text-to-video Median Rank	1	# 1	Compare
			text-to-video Mean Rank	8.3	# 3	Compare
			video-to-text R@1	70.0	# 5	Compare
			video-to-text R@5	93.2	# 3	Compare
			video-to-text R@10	96.2	# 4	Compare
			video-to-text Median Rank	1	# 1	Compare
			video-to-text Mean Rank	2.4	# 1	Compare
Video Retrieval	VATEX	Cap4Video	text-to-video R@1	66.6	# 7	Compare
			text-to-video R@10	97.0	# 4	Compare
			video-to-text R@1	80.9	# 4	Compare
			video-to-text R@10	99.6	# 1	Compare
			text-to-video R@5	93.1	# 1	Compare
			text-to-video MedianR	1	# 1	Compare
			text-to-video MeanR	2.7	# 1	Compare

Methods

Add Remove

CLIP

Edit Social Preview

Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval?

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove