TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART (Multi-lingual-multi-domain)	ROUGE-L	21.04	# 1
Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART (Multi-lingual-multi-domain)	ChrF++	23.44	# 1
Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART (Multi-lingual-multi-domain)	METEOR	15.35	# 1
Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART (Multi-lingual)	ROUGE-L	16.96	# 3
Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART (Multi-lingual)	ChrF++	19.11	# 3
Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART (Multi-lingual)	METEOR	12.19	# 3
Cross-Lingual Abstractive Summarization	XWikiRef	Salience + mBART (Multi-domain)	ROUGE-L	19.88	# 2
Cross-Lingual Abstractive Summarization	XWikiRef	Salience + mBART (Multi-domain)	ChrF++	22.82	# 2
Cross-Lingual Abstractive Summarization	XWikiRef	Salience + mBART (Multi-domain)	METEOR	15	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/xwikigen-cross-lingual-summarization-for/cross-lingual-abstractive-summarization-on-4)](https://paperswithcode.com/sota/cross-lingual-abstractive-summarization-on-4?p=xwikigen-cross-lingual-summarization-for)`

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages

22 Mar 2023 · Dhaval Taunk, Shivprasad Sagare, Anupam Patil, Shivansh Subramanian, Manish Gupta, Vasudeva Varma ·

Lack of encyclopedic text contributors, especially on Wikipedia, makes automated text generation for low resource (LR) languages a critical problem. Existing work on Wikipedia text generation has focused on English only where English reference articles are summarized to generate English Wikipedia pages. But, for low-resource languages, the scarcity of reference articles makes monolingual summarization ineffective in solving this problem. Hence, in this work, we propose XWikiGen, which is the task of cross-lingual multi-document summarization of text from multiple reference articles, written in various languages, to generate Wikipedia-style text. Accordingly, we contribute a benchmark dataset, XWikiRef, spanning ~69K Wikipedia articles covering five domains and eight languages. We harness this dataset to train a two-stage system where the input is a set of citations and a section title and the output is a section-specific LR summary. The proposed system is based on a novel idea of neural unsupervised extractive summarization to coarsely identify salient information followed by a neural abstractive model to generate the section-specific text. Extensive experiments show that multi-domain training is better than the multi-lingual setup on average.

PDF Abstract

Code

Add Remove Mark official

DhavalTaunk08/XWikiGen official

Tasks

Add Remove

Cross-Lingual Abstractive Summarization

Document Summarization

Extractive Summarization

Multi-Document Summarization

Text Generation

Unsupervised Extractive Summarization

Datasets

Introduced in the Paper:

XWikiRef

Results from the Paper

Edit

Ranked #1 on Cross-Lingual Abstractive Summarization on XWikiRef

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART (Multi-lingual-multi-domain)	ROUGE-L	21.04	# 1	Compare
			ChrF++	23.44	# 1	Compare
			METEOR	15.35	# 1	Compare
Cross-Lingual Abstractive Summarization	XWikiRef	HipoRank + mBART (Multi-lingual)	ROUGE-L	16.96	# 3	Compare
			ChrF++	19.11	# 3	Compare
			METEOR	12.19	# 3	Compare
Cross-Lingual Abstractive Summarization	XWikiRef	Salience + mBART (Multi-domain)	ROUGE-L	19.88	# 2	Compare
			ChrF++	22.82	# 2	Compare
			METEOR	15	# 2	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

XWikiGen: Cross-lingual Summarization for Encyclopedic Text Generation in Low Resource Languages

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove