TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Retrieval	ActivityNet	VAST	text-to-video R@1	70.5	# 2
Video Retrieval	ActivityNet	VAST	text-to-video R@5	90.9	# 1
Video Retrieval	ActivityNet	VAST	text-to-video R@10	95.5	# 1
Video Question Answering	ActivityNet-QA	VAST	Accuracy	50.4	# 5
Audio captioning	AudioCaps	VAST	CIDEr	0.781	# 3
Audio captioning	AudioCaps	VAST	BLEU-4	0.295	# 1
Audio captioning	AudioCaps	VAST	METEOR	0.247	# 4
Audio captioning	AudioCaps	VAST	ROUGE-L	0.509	# 1
Text to Audio Retrieval	AudioCaps	VAST	R@1	52.0	# 2
Text to Audio Retrieval	AudioCaps	VAST	R@10	82.9	# 5
Text to Audio Retrieval	AudioCaps	VAST	R@5	76.8	# 2
Text to Audio Retrieval	Clotho	VAST	R@1	26.9	# 2
Text to Audio Retrieval	Clotho	VAST	R@10	66.1	# 1
Text to Audio Retrieval	Clotho	VAST	R@5	53.2	# 1
Audio captioning	Clotho	VAST	CIDEr	0.519	# 1
Audio captioning	Clotho	VAST	BLEU-4	19	# 1
Audio captioning	Clotho	VAST	METEOR	19.3	# 1
Audio captioning	Clotho	VAST	ROUGE-L	40.8	# 1
Cross-Modal Retrieval	COCO 2014	VAST	Text-to-image R@1	68.0	# 2
Cross-Modal Retrieval	COCO 2014	VAST	Text-to-image R@10	92.8	# 1
Cross-Modal Retrieval	COCO 2014	VAST	Text-to-image R@5	87.7	# 2
Image Captioning	COCO Captions	VAST	CIDER	149.0	# 5
Image Captioning	COCO Captions	VAST	SPICE	27.0	# 1
Video Retrieval	DiDeMo	VAST	text-to-video R@1	72.0	# 3
Video Retrieval	DiDeMo	VAST	text-to-video R@5	89.0	# 3
Video Retrieval	DiDeMo	VAST	text-to-video R@10	91.4	# 4
Zero-Shot Video Retrieval	DiDeMo	VAST	text-to-video R@1	55.5	# 3
Zero-Shot Video Retrieval	DiDeMo	VAST	text-to-video R@5	74.3	# 3
Zero-Shot Video Retrieval	DiDeMo	VAST	text-to-video R@10	79.6	# 4
Zero-Shot Cross-Modal Retrieval	Flickr30k	VAST	Text-to-image R@1	90.4	# 2
Cross-Modal Retrieval	Flickr30k	VAST	Text-to-image R@1	91.0	# 3
Cross-Modal Retrieval	Flickr30k	VAST	Text-to-image R@10	99.5	# 2
Cross-Modal Retrieval	Flickr30k	VAST	Text-to-image R@5	98.5	# 4
Zero-Shot Video Retrieval	MSR-VTT	VAST	text-to-video R@1	49.3	# 3
Zero-Shot Video Retrieval	MSR-VTT	VAST	text-to-video R@5	68.3	# 5
Zero-Shot Video Retrieval	MSR-VTT	VAST	text-to-video R@10	73.9	# 6
Video Captioning	MSR-VTT	VAST	CIDEr	78.0	# 2
Video Captioning	MSR-VTT	VAST	BLEU-4	56.7	# 2
Video Retrieval	MSR-VTT	VAST	text-to-video R@1	63.9	# 1
Video Retrieval	MSR-VTT	VAST	text-to-video R@5	84.3	# 1
Video Retrieval	MSR-VTT	VAST	text-to-video R@10	89.6	# 1
Video Question Answering	MSRVTT-QA	VAST	Accuracy	50.1	# 2
Visual Question Answering (VQA)	MSVD-QA	VAST	Accuracy	0.60	# 4
Audio-visual Question Answering	MUSIC-AVQA	VAST	Acc	80.7	# 1
TGIF-Frame	TGIF-QA	VAST	Accuracy	79.1	# 2
Video Captioning	TVC	VAST	BLEU-4	19.9	# 1
Video Captioning	TVC	VAST	CIDEr	74.1	# 1
Audio-Visual Captioning	VALOR-32K	VAST	CIDEr	62.2	# 1
Audio-Visual Captioning	VALOR-32K	VAST	BLEU-4	9.9	# 1
text-to-audiovisual retrieval	VALOR-32K	VAST	text-to-audiovisual R@1	80.0	# 2
text-to-audiovisual retrieval	VALOR-32K	VAST	text-to-audiovisual R@5	93.7	# 2
text-to-audiovisual retrieval	VALOR-32K	VAST	text-to-audiovisual R@10	96.6	# 2
Video Retrieval	VATEX	VAST	text-to-video R@1	83.0	# 1
Video Retrieval	VATEX	VAST	text-to-video R@10	99.2	# 1
Video Retrieval	VATEX	VAST	text-to-video R@5	98.2	# 5
Video Captioning	VATEX	VAST	BLEU-4	45.0	# 2
Video Captioning	VATEX	VAST	CIDEr	99.5	# 1
Video Retrieval	YouCook2	VAST	text-to-video R@1	50.4	# 1
Video Retrieval	YouCook2	VAST	text-to-video R@10	80.8	# 1
Video Retrieval	YouCook2	VAST	text-to-video R@5	74.3	# 1
Video Captioning	YouCook2	VAST	BLEU-4	18.2	# 1
Video Captioning	YouCook2	VAST	CIDEr	1.99	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/audio-captioning-on-audiocaps)](https://paperswithcode.com/sota/audio-captioning-on-audiocaps?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/audio-captioning-on-clotho)](https://paperswithcode.com/sota/audio-captioning-on-clotho?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/image-captioning-on-coco-captions)](https://paperswithcode.com/sota/image-captioning-on-coco-captions?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/video-retrieval-on-msr-vtt?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/audio-visual-question-answering-on-music-avqa)](https://paperswithcode.com/sota/audio-visual-question-answering-on-music-avqa?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-captioning-on-tvc)](https://paperswithcode.com/sota/video-captioning-on-tvc?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/audio-visual-captioning-on-valor-32k)](https://paperswithcode.com/sota/audio-visual-captioning-on-valor-32k?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-retrieval-on-vatex)](https://paperswithcode.com/sota/video-retrieval-on-vatex?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-retrieval-on-youcook2)](https://paperswithcode.com/sota/video-retrieval-on-youcook2?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-captioning-on-youcook2)](https://paperswithcode.com/sota/video-captioning-on-youcook2?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-retrieval-on-activitynet)](https://paperswithcode.com/sota/video-retrieval-on-activitynet?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/text-to-audio-retrieval-on-audiocaps)](https://paperswithcode.com/sota/text-to-audio-retrieval-on-audiocaps?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/text-to-audio-retrieval-on-clotho)](https://paperswithcode.com/sota/text-to-audio-retrieval-on-clotho?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/cross-modal-retrieval-on-coco-2014)](https://paperswithcode.com/sota/cross-modal-retrieval-on-coco-2014?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/zero-shot-cross-modal-retrieval-on-flickr30k)](https://paperswithcode.com/sota/zero-shot-cross-modal-retrieval-on-flickr30k?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/cross-modal-retrieval-on-flickr30k)](https://paperswithcode.com/sota/cross-modal-retrieval-on-flickr30k?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-captioning-on-msr-vtt-1)](https://paperswithcode.com/sota/video-captioning-on-msr-vtt-1?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-question-answering-on-msrvtt-qa)](https://paperswithcode.com/sota/video-question-answering-on-msrvtt-qa?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/tgif-frame-on-tgif-qa)](https://paperswithcode.com/sota/tgif-frame-on-tgif-qa?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/text-to-audiovisual-retrieval-on-valor-32k)](https://paperswithcode.com/sota/text-to-audiovisual-retrieval-on-valor-32k?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-captioning-on-vatex-1)](https://paperswithcode.com/sota/video-captioning-on-vatex-1?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-retrieval-on-didemo)](https://paperswithcode.com/sota/video-retrieval-on-didemo?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/zero-shot-video-retrieval-on-didemo)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-didemo?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/zero-shot-video-retrieval-on-msr-vtt)](https://paperswithcode.com/sota/zero-shot-video-retrieval-on-msr-vtt?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/visual-question-answering-on-msvd-qa-1)](https://paperswithcode.com/sota/visual-question-answering-on-msvd-qa-1?p=vast-a-vision-audio-subtitle-text-omni-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vast-a-vision-audio-subtitle-text-omni-1/video-question-answering-on-activitynet-qa)](https://paperswithcode.com/sota/video-question-answering-on-activitynet-qa?p=vast-a-vision-audio-subtitle-text-omni-1)`

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

NeurIPS 2023 · Sihan Chen, Handong Li, Qunbo Wang, Zijia Zhao, Mingzhen Sun, Xinxin Zhu, Jing Liu ·

Vision and text have been fully explored in contemporary video-text foundational models, while other modalities such as audio and subtitles in videos have not received sufficient attention. In this paper, we resort to establish connections between multi-modality video tracks, including Vision, Audio, and Subtitle, and Text by exploring an automatically generated large-scale omni-modality video caption dataset called VAST-27M. Specifically, we first collect 27 million open-domain video clips and separately train a vision and an audio captioner to generate vision and audio captions. Then, we employ an off-the-shelf Large Language Model (LLM) to integrate the generated captions, together with subtitles and instructional prompts into omni-modality captions. Based on the proposed VAST-27M dataset, we train an omni-modality video-text foundational model named VAST, which can perceive and process vision, audio, and subtitle modalities from video, and better support various tasks including vision-text, audio-text, and multi-modal video-text tasks (retrieval, captioning and QA). Extensive experiments have been conducted to demonstrate the effectiveness of our proposed VAST-27M corpus and VAST foundation model. VAST achieves 22 new state-of-the-art results on various cross-modality benchmarks. Code, model and dataset will be released at https://github.com/TXH-mercury/VAST.

PDF Abstract NeurIPS 2023 PDF NeurIPS 2023 Abstract

Code

Add Remove Mark official

txh-mercury/vast official

179

Tasks

Add Remove

Audio captioning

Audio-Visual Captioning

Audio-visual Question Answering

Cross-Modal Retrieval

Image Captioning

Language Modelling

Large Language Model

Text to Audio Retrieval

text-to-audiovisual retrieval

TGIF-Frame

Video Captioning

Video Question Answering

Video Retrieval

Visual Question Answering (VQA)

Zero-Shot Cross-Modal Retrieval

Zero-Shot Video Retrieval

Datasets

MS COCO

Flickr30k

ActivityNet

MSR-VTT

MSVD

HowTo100M

DiDeMo

COCO Captions

WebVid

AudioCaps

YouCook2

Clotho

LAION-400M

VATEX

ActivityNet-QA

TGIF-QA MSRVTT-QA MSVD-QA

VALUE

MUSIC-AVQA WavCaps

TVC

Results from the Paper

Add Remove

Ranked #1 on Image Captioning on COCO Captions (SPICE metric, using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Retrieval	ActivityNet	VAST	text-to-video R@1	70.5	# 2	Compare
			text-to-video R@5	90.9	# 1	Compare
			text-to-video R@10	95.5	# 1	Compare
Video Question Answering	ActivityNet-QA	VAST	Accuracy	50.4	# 5	Compare
Audio captioning	AudioCaps	VAST	CIDEr	0.781	# 3	Compare
			BLEU-4	0.295	# 1	Compare
			METEOR	0.247	# 4	Compare
			ROUGE-L	0.509	# 1	Compare
Text to Audio Retrieval	AudioCaps	VAST	R@1	52.0	# 2	Compare
			R@10	82.9	# 5	Compare
			R@5	76.8	# 2	Compare
Text to Audio Retrieval	Clotho	VAST	R@1	26.9	# 2	Compare
			R@10	66.1	# 1	Compare
			R@5	53.2	# 1	Compare
Audio captioning	Clotho	VAST	CIDEr	0.519	# 1	Compare
			BLEU-4	19	# 1	Compare
			METEOR	19.3	# 1	Compare
			ROUGE-L	40.8	# 1	Compare
Cross-Modal Retrieval	COCO 2014	VAST	Text-to-image R@1	68.0	# 2	Compare
			Text-to-image R@10	92.8	# 1	Compare
			Text-to-image R@5	87.7	# 2	Compare
Image Captioning	COCO Captions	VAST	CIDER	149.0	# 5	Compare
Image Captioning	COCO Captions	VAST	SPICE	27.0	# 1	Compare
Video Retrieval	DiDeMo	VAST	text-to-video R@1	72.0	# 3	Compare
			text-to-video R@5	89.0	# 3	Compare
			text-to-video R@10	91.4	# 4	Compare
Zero-Shot Video Retrieval	DiDeMo	VAST	text-to-video R@1	55.5	# 3	Compare
			text-to-video R@5	74.3	# 3	Compare
			text-to-video R@10	79.6	# 4	Compare
Zero-Shot Cross-Modal Retrieval	Flickr30k	VAST	Text-to-image R@1	90.4	# 2	Compare
Cross-Modal Retrieval	Flickr30k	VAST	Text-to-image R@1	91.0	# 3	Compare
			Text-to-image R@10	99.5	# 2	Compare
			Text-to-image R@5	98.5	# 4	Compare
Zero-Shot Video Retrieval	MSR-VTT	VAST	text-to-video R@1	49.3	# 3	Compare
			text-to-video R@5	68.3	# 5	Compare
			text-to-video R@10	73.9	# 6	Compare
Video Captioning	MSR-VTT	VAST	CIDEr	78.0	# 2	Compare
Video Captioning	MSR-VTT	VAST	BLEU-4	56.7	# 2	Compare
Video Retrieval	MSR-VTT	VAST	text-to-video R@1	63.9	# 1	Compare
			text-to-video R@5	84.3	# 1	Compare
			text-to-video R@10	89.6	# 1	Compare
Video Question Answering	MSRVTT-QA	VAST	Accuracy	50.1	# 2	Compare
Visual Question Answering (VQA)	MSVD-QA	VAST	Accuracy	0.60	# 4	Compare
Audio-visual Question Answering	MUSIC-AVQA	VAST	Acc	80.7	# 1	Compare
TGIF-Frame	TGIF-QA	VAST	Accuracy	79.1	# 2	Compare
Video Captioning	TVC	VAST	BLEU-4	19.9	# 1	Compare
Video Captioning	TVC	VAST	CIDEr	74.1	# 1	Compare
Audio-Visual Captioning	VALOR-32K	VAST	CIDEr	62.2	# 1	Compare
Audio-Visual Captioning	VALOR-32K	VAST	BLEU-4	9.9	# 1	Compare
text-to-audiovisual retrieval	VALOR-32K	VAST	text-to-audiovisual R@1	80.0	# 2	Compare
			text-to-audiovisual R@5	93.7	# 2	Compare
			text-to-audiovisual R@10	96.6	# 2	Compare
Video Retrieval	VATEX	VAST	text-to-video R@1	83.0	# 1	Compare
			text-to-video R@10	99.2	# 1	Compare
			text-to-video R@5	98.2	# 5	Compare
Video Captioning	VATEX	VAST	BLEU-4	45.0	# 2	Compare
Video Captioning	VATEX	VAST	CIDEr	99.5	# 1	Compare
Video Retrieval	YouCook2	VAST	text-to-video R@1	50.4	# 1	Compare
			text-to-video R@10	80.8	# 1	Compare
			text-to-video R@5	74.3	# 1	Compare
Video Captioning	YouCook2	VAST	BLEU-4	18.2	# 1	Compare
Video Captioning	YouCook2	VAST	CIDEr	1.99	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove