TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Chinese	BiLSTM (UN)	Accuracy	71.97	# 4
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Chinese	MultiCCA + CNN	Accuracy	74.73	# 3
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-French	BiLSTM (Europarl)	Accuracy	72.83	# 5
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-French	BiLSTM (UN)	Accuracy	74.52	# 4
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-French	MultiCCA + CNN	Accuracy	72.38	# 6
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-German	MultiCCA + CNN	Accuracy	81.2%	# 4
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-German	BiLSTM (Europarl)	Accuracy	71.83%	# 5
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Italian	MultiCCA + CNN	Accuracy	69.38	# 3
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Italian	BiLSTM (Europarl)	Accuracy	60.73	# 4
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Japanese	MultiCCA + CNN	Accuracy	67.63	# 2
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Russian	BiLSTM (UN)	Accuracy	61.42	# 4
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Russian	MultiCCA + CNN	Accuracy	60.8	# 5
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Spanish	MultiCCA + CNN	Accuracy	72.5	# 4
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Spanish	BiLSTM (UN)	Accuracy	69.5	# 5
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Spanish	BiLSTM (Europarl)	Accuracy	66.65	# 6
Cross-Lingual Document Classification	MLDoc Zero-Shot German-to-French	BiLSTM (Europarl)	Accuracy	75.45	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-corpus-for-multilingual-document/cross-lingual-document-classification-on-14)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-14?p=a-corpus-for-multilingual-document)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-corpus-for-multilingual-document/cross-lingual-document-classification-on-11)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-11?p=a-corpus-for-multilingual-document)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-corpus-for-multilingual-document/cross-lingual-document-classification-on-8)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-8?p=a-corpus-for-multilingual-document)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-corpus-for-multilingual-document/cross-lingual-document-classification-on-10)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-10?p=a-corpus-for-multilingual-document)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-corpus-for-multilingual-document/cross-lingual-document-classification-on-2)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-2?p=a-corpus-for-multilingual-document)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-corpus-for-multilingual-document/cross-lingual-document-classification-on)](https://paperswithcode.com/sota/cross-lingual-document-classification-on?p=a-corpus-for-multilingual-document)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-corpus-for-multilingual-document/cross-lingual-document-classification-on-9)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-9?p=a-corpus-for-multilingual-document)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-corpus-for-multilingual-document/cross-lingual-document-classification-on-1)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-1?p=a-corpus-for-multilingual-document)`

A Corpus for Multilingual Document Classification in Eight Languages

LREC 2018 · Holger Schwenk, Xi-An Li ·

Cross-lingual document classification aims at training a document classifier on resources in one language and transferring it to a different language without any additional resources. Several approaches have been proposed in the literature and the current best practice is to evaluate them on a subset of the Reuters Corpus Volume 2. However, this subset covers only few languages (English, German, French and Spanish) and almost all published works focus on the the transfer between English and German. In addition, we have observed that the class prior distributions differ significantly between the languages. We argue that this complicates the evaluation of the multilinguality. In this paper, we propose a new subset of the Reuters corpus with balanced class priors for eight languages. By adding Italian, Russian, Japanese and Chinese, we cover languages which are very different with respect to syntax, morphology, etc. We provide strong baselines for all language transfer directions using multilingual word and sentence embeddings respectively. Our goal is to offer a freely available framework to evaluate cross-lingual document classification, and we hope to foster by these means, research in this important area.

PDF Abstract LREC 2018 PDF LREC 2018 Abstract

Code

Add Remove Mark official

facebookresearch/MLDoc official

153

n-waves/multifit

282

Tasks

Add Remove

Classification

Cross-Lingual Document Classification

Document Classification

General Classification

Sentence

Sentence Embeddings

Datasets

Introduced in the Paper:

MLDoc

Results from the Paper

Edit

Ranked #1 on Cross-Lingual Document Classification on MLDoc Zero-Shot German-to-French

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Chinese	BiLSTM (UN)	Accuracy	71.97	# 4	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Chinese	MultiCCA + CNN	Accuracy	74.73	# 3	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-French	BiLSTM (Europarl)	Accuracy	72.83	# 5	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-French	BiLSTM (UN)	Accuracy	74.52	# 4	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-French	MultiCCA + CNN	Accuracy	72.38	# 6	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-German	MultiCCA + CNN	Accuracy	81.2%	# 4	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-German	BiLSTM (Europarl)	Accuracy	71.83%	# 5	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Italian	MultiCCA + CNN	Accuracy	69.38	# 3	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Italian	BiLSTM (Europarl)	Accuracy	60.73	# 4	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Japanese	MultiCCA + CNN	Accuracy	67.63	# 2	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Russian	BiLSTM (UN)	Accuracy	61.42	# 4	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Russian	MultiCCA + CNN	Accuracy	60.8	# 5	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Spanish	MultiCCA + CNN	Accuracy	72.5	# 4	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Spanish	BiLSTM (UN)	Accuracy	69.5	# 5	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Spanish	BiLSTM (Europarl)	Accuracy	66.65	# 6	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot German-to-French	BiLSTM (Europarl)	Accuracy	75.45	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

A Corpus for Multilingual Document Classification in Eight Languages

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove