CNN/Daily Mail

Introduced by Nallapati et al. in Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond

CNN/Daily Mail is a dataset for text summarization. Human generated abstractive summary bullets were generated from news stories in CNN and Daily Mail websites as questions (with one of the entities hidden), and stories as the corresponding passages from which the system is expected to answer the fill-in the-blank question. The authors released the scripts that crawl, extract and generate pairs of passages and questions from these websites.

In all, the corpus has 286,817 training pairs, 13,368 validation pairs and 11,487 test pairs, as defined by their scripts. The source documents in the training set have 766 words spanning 29.74 sentences on an average while the summaries consist of 53 words and 3.72 sentences.

Source: Abstractive Text Summarization using Sequence-to-sequence RNNs and Beyond

Homepage

Benchmarks

Add a new result Link an existing benchmark

Task	Dataset Variant	Best Model
Abstractive Text Summarization	CNN / Daily Mail	Pegasus
Document Summarization	CNN / Daily Mail	Scrambled code + broken
Question Answering	CNN / Daily Mail	GA+MAGE
Extractive Text Summarization	CNN / Daily Mail	BERT-ext + RL
Text Summarization	CNN / Daily Mail (Anonymized)	HSSAS
Summarization	cnn_dailymail	facebook/bart-large-cnn
Abstractive Text Summarization	CNN/Daily Mail	BART
Extractive Document Summarization	CNN / Daily Mail	BertSumExt
Sequence-to-sequence Language Modeling	cnn_dailymail	t5-small-finetuned-cnn-wei1
Text Generation	CNN/Daily Mail	PALM