TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Abstractive Text Summarization	CNN / Daily Mail	Pegasus	ROUGE-1	48.88	# 1
Abstractive Text Summarization	CNN / Daily Mail	Pegasus	ROUGE-2	24.94	# 1
Abstractive Text Summarization	CNN / Daily Mail	Pegasus	ROUGE-L	45.76	# 1
Text Summarization	Reddit TIFU	PEGASUS 2B + SLiC	ROUGE-1	32.03	# 1
Text Summarization	Reddit TIFU	PEGASUS 2B + SLiC	ROUGE-2	11.13	# 2
Text Summarization	Reddit TIFU	PEGASUS 2B + SLiC	ROUGE-L	25.51	# 1
Text Summarization	SAMSum	PEGASUS 2B + SliC	ROUGE-1	54.37	# 3
Text Summarization	SAMSum	PEGASUS 2B + SliC	ROUGE-2	29.88	# 3
Text Summarization	SAMSum	PEGASUS 2B + SliC	ROUGE-L	45.89	# 5
Text Summarization	X-Sum	Pegasus 2B + SLiC	ROUGE-1	49.77	# 1
Text Summarization	X-Sum	Pegasus 2B + SLiC	ROUGE-2	27.09	# 1
Text Summarization	X-Sum	Pegasus 2B + SLiC	ROUGE-3	42.08	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/calibrating-sequence-likelihood-improves/abstractive-text-summarization-on-cnn-daily)](https://paperswithcode.com/sota/abstractive-text-summarization-on-cnn-daily?p=calibrating-sequence-likelihood-improves)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/calibrating-sequence-likelihood-improves/text-summarization-on-reddit-tifu)](https://paperswithcode.com/sota/text-summarization-on-reddit-tifu?p=calibrating-sequence-likelihood-improves)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/calibrating-sequence-likelihood-improves/text-summarization-on-x-sum)](https://paperswithcode.com/sota/text-summarization-on-x-sum?p=calibrating-sequence-likelihood-improves)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/calibrating-sequence-likelihood-improves/text-summarization-on-samsum-corpus)](https://paperswithcode.com/sota/text-summarization-on-samsum-corpus?p=calibrating-sequence-likelihood-improves)`

Calibrating Sequence likelihood Improves Conditional Language Generation

30 Sep 2022 · Yao Zhao, Misha Khalman, Rishabh Joshi, Shashi Narayan, Mohammad Saleh, Peter J. Liu ·

Conditional language models are predominantly trained with maximum likelihood estimation (MLE), giving probability mass to sparsely observed target sequences. While MLE trained models assign high probability to plausible sequences given the context, the model probabilities often do not accurately rank-order generated sequences by quality. This has been empirically observed in beam search decoding as output quality degrading with large beam sizes, and decoding strategies benefiting from heuristics such as length normalization and repetition-blocking. In this work, we introduce sequence likelihood calibration (SLiC) where the likelihood of model generated sequences are calibrated to better align with reference sequences in the model's latent space. With SLiC, decoding heuristics become unnecessary and decoding candidates' quality significantly improves regardless of the decoding method. Furthermore, SLiC shows no sign of diminishing returns with model scale, and presents alternative ways to improve quality with limited training and inference budgets. With SLiC, we exceed or match SOTA results on a wide range of generation tasks spanning abstractive summarization, question generation, abstractive question answering and data-to-text generation, even with modest-sized models.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

abstractive question answering

Abstractive Text Summarization

Blocking

Data-to-Text Generation

Question Answering

Question Generation

Question-Generation

Text Generation

Text Summarization

Datasets

SQuAD

MS MARCO

CNN/Daily Mail SAMSum CommonGen

Reddit TIFU

GEM

XSum

Results from the Paper

Add Remove

Ranked #1 on Abstractive Text Summarization on CNN / Daily Mail

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Abstractive Text Summarization	CNN / Daily Mail	Pegasus	ROUGE-1	48.88	# 1	Compare
			ROUGE-2	24.94	# 1	Compare
			ROUGE-L	45.76	# 1	Compare
Text Summarization	Reddit TIFU	PEGASUS 2B + SLiC	ROUGE-1	32.03	# 1	Compare
			ROUGE-2	11.13	# 2	Compare
			ROUGE-L	25.51	# 1	Compare
Text Summarization	SAMSum	PEGASUS 2B + SliC	ROUGE-1	54.37	# 3	Compare
			ROUGE-2	29.88	# 3	Compare
			ROUGE-L	45.89	# 5	Compare
Text Summarization	X-Sum	Pegasus 2B + SLiC	ROUGE-1	49.77	# 1	Compare
			ROUGE-2	27.09	# 1	Compare
			ROUGE-3	42.08	# 1	Compare

Methods

Add Remove

ALIGN

Edit Social Preview

Calibrating Sequence likelihood Improves Conditional Language Generation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove