TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Extractive Text Summarization	CNN / Daily Mail	A2Summ	ROUGE-2	20.31	# 4
Extractive Text Summarization	CNN / Daily Mail	A2Summ	ROUGE-1	44.11	# 3
Extractive Text Summarization	CNN / Daily Mail	A2Summ	ROUGE-L	35.92	# 13
Supervised Video Summarization	SumMe	A2Summ	F1-score (Canonical)	55.0	# 3
Supervised Video Summarization	SumMe	A2Summ	Kendall's Tau	0.108	# 3
Supervised Video Summarization	SumMe	A2Summ	Spearman's Rho	0.129	# 3
Supervised Video Summarization	TvSum	A2Summ	F1-score (Canonical)	63.4	# 4

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/align-and-attend-multimodal-summarization/extractive-document-summarization-on-cnn)](https://paperswithcode.com/sota/extractive-document-summarization-on-cnn?p=align-and-attend-multimodal-summarization)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/align-and-attend-multimodal-summarization/supervised-video-summarization-on-summe)](https://paperswithcode.com/sota/supervised-video-summarization-on-summe?p=align-and-attend-multimodal-summarization)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/align-and-attend-multimodal-summarization/supervised-video-summarization-on-tvsum)](https://paperswithcode.com/sota/supervised-video-summarization-on-tvsum?p=align-and-attend-multimodal-summarization)`

Align and Attend: Multimodal Summarization with Dual Contrastive Losses

CVPR 2023 · Bo He, Jun Wang, JieLin Qiu, Trung Bui, Abhinav Shrivastava, Zhaowen Wang ·

The goal of multimodal summarization is to extract the most important information from different modalities to form output summaries. Unlike the unimodal summarization, the multimodal summarization task explicitly leverages cross-modal information to help generate more reliable and high-quality summaries. However, existing methods fail to leverage the temporal correspondence between different modalities and ignore the intrinsic correlation between different samples. To address this issue, we introduce Align and Attend Multimodal Summarization (A2Summ), a unified multimodal transformer-based model which can effectively align and attend the multimodal input. In addition, we propose two novel contrastive losses to model both inter-sample and intra-sample correlations. Extensive experiments on two standard video summarization datasets (TVSum and SumMe) and two multimodal summarization datasets (Daily Mail and CNN) demonstrate the superiority of A2Summ, achieving state-of-the-art performances on all datasets. Moreover, we collected a large-scale multimodal summarization dataset BLiSS, which contains livestream videos and transcribed texts with annotated summaries. Our code and dataset are publicly available at ~\url{https://boheumd.github.io/A2Summ/}.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

boheumd/A2Summ official

Tasks

Add Remove

Extractive Text Summarization

Supervised Video Summarization

Video Summarization

Datasets

CNN/Daily Mail TVSum

SumMe

Results from the Paper

Edit

Ranked #3 on Supervised Video Summarization on SumMe

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Extractive Text Summarization	CNN / Daily Mail	A2Summ	ROUGE-2	20.31	# 4	Compare
			ROUGE-1	44.11	# 3	Compare
			ROUGE-L	35.92	# 13	Compare
Supervised Video Summarization	SumMe	A2Summ	F1-score (Canonical)	55.0	# 3	Compare
			Kendall's Tau	0.108	# 3	Compare
			Spearman's Rho	0.129	# 3	Compare
Supervised Video Summarization	TvSum	A2Summ	F1-score (Canonical)	63.4	# 4	Compare

Methods

Add Remove

ALIGN • fail

Edit Social Preview

Align and Attend: Multimodal Summarization with Dual Contrastive Losses

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove