TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Cross-Lingual Bitext Mining	BUCC Chinese-to-English	Massively Multilingual Sentence Embeddings	F1 score	92.27	# 1
Cross-Lingual Bitext Mining	BUCC French-to-English	Massively Multilingual Sentence Embeddings	F1 score	93.91	# 1
Cross-Lingual Bitext Mining	BUCC German-to-English	Massively Multilingual Sentence Embeddings	F1 score	96.19	# 1
Cross-Lingual Bitext Mining	BUCC Russian-to-English	Massively Multilingual Sentence Embeddings	F1 score	93.3	# 1
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Chinese	Massively Multilingual Sentence Embeddings	Accuracy	71.93	# 5
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-French	Massively Multilingual Sentence Embeddings	Accuracy	77.95	# 3
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-German	Massively Multilingual Sentence Embeddings	Accuracy	84.78%	# 3
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Italian	Massively Multilingual Sentence Embeddings	Accuracy	69.43	# 2
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Japanese	Massively Multilingual Sentence Embeddings	Accuracy	60.3	# 3
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Russian	Massively Multilingual Sentence Embeddings	Accuracy	67.78	# 3
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Spanish	Massively Multilingual Sentence Embeddings	Accuracy	77.33	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-bitext-mining-on-bucc-chinese)](https://paperswithcode.com/sota/cross-lingual-bitext-mining-on-bucc-chinese?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-bitext-mining-on-bucc-french-to)](https://paperswithcode.com/sota/cross-lingual-bitext-mining-on-bucc-french-to?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-bitext-mining-on-bucc-german-to)](https://paperswithcode.com/sota/cross-lingual-bitext-mining-on-bucc-german-to?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-bitext-mining-on-bucc-russian)](https://paperswithcode.com/sota/cross-lingual-bitext-mining-on-bucc-russian?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-document-classification-on-10)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-10?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-document-classification-on-2)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-2?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-document-classification-on)](https://paperswithcode.com/sota/cross-lingual-document-classification-on?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-document-classification-on-11)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-11?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-document-classification-on-9)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-9?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-document-classification-on-1)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-1?p=massively-multilingual-sentence-embeddings)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massively-multilingual-sentence-embeddings/cross-lingual-document-classification-on-8)](https://paperswithcode.com/sota/cross-lingual-document-classification-on-8?p=massively-multilingual-sentence-embeddings)`

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

TACL 2019 · Mikel Artetxe, Holger Schwenk ·

We introduce an architecture to learn joint multilingual sentence representations for 93 languages, belonging to more than 30 different families and written in 28 different scripts. Our system uses a single BiLSTM encoder with a shared BPE vocabulary for all languages, which is coupled with an auxiliary decoder and trained on publicly available parallel corpora. This enables us to learn a classifier on top of the resulting embeddings using English annotated data only, and transfer it to any of the 93 languages without any modification. Our experiments in cross-lingual natural language inference (XNLI dataset), cross-lingual document classification (MLDoc dataset) and parallel corpus mining (BUCC dataset) show the effectiveness of our approach. We also introduce a new test set of aligned sentences in 112 languages, and show that our sentence embeddings obtain strong results in multilingual similarity search even for low-resource languages. Our implementation, the pre-trained encoder and the multilingual test set are available at https://github.com/facebookresearch/LASER

PDF Abstract TACL 2019 PDF TACL 2019 Abstract

Code

Add Remove Mark official

facebookresearch/LASER official

3,524

facebookresearch/vizseq

438

Unbabel/COMET

405

yannvgn/laserembeddings

223

transducens/LASERtrain

See all 13 implementations

Tasks

Add Remove

Cross-Lingual Bitext Mining

Cross-Lingual Document Classification

Cross-Lingual Natural Language Inference

Cross-Lingual Transfer

Decoder

Document Classification

Joint Multilingual Sentence Representations

Natural Language Inference

Parallel Corpus Mining

Sentence

Sentence Embeddings

Zero-Shot Cross-Lingual Transfer

Datasets

Introduced in the Paper:

Tatoeba

Used in the Paper:

XNLI MLDoc

BUCC

Results from the Paper

Edit

Ranked #1 on Cross-Lingual Bitext Mining on BUCC German-to-English

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Cross-Lingual Bitext Mining	BUCC Chinese-to-English	Massively Multilingual Sentence Embeddings	F1 score	92.27	# 1	Compare
Cross-Lingual Bitext Mining	BUCC French-to-English	Massively Multilingual Sentence Embeddings	F1 score	93.91	# 1	Compare
Cross-Lingual Bitext Mining	BUCC German-to-English	Massively Multilingual Sentence Embeddings	F1 score	96.19	# 1	Compare
Cross-Lingual Bitext Mining	BUCC Russian-to-English	Massively Multilingual Sentence Embeddings	F1 score	93.3	# 1	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Chinese	Massively Multilingual Sentence Embeddings	Accuracy	71.93	# 5	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-French	Massively Multilingual Sentence Embeddings	Accuracy	77.95	# 3	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-German	Massively Multilingual Sentence Embeddings	Accuracy	84.78%	# 3	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Italian	Massively Multilingual Sentence Embeddings	Accuracy	69.43	# 2	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Japanese	Massively Multilingual Sentence Embeddings	Accuracy	60.3	# 3	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Russian	Massively Multilingual Sentence Embeddings	Accuracy	67.78	# 3	Compare
Cross-Lingual Document Classification	MLDoc Zero-Shot English-to-Spanish	Massively Multilingual Sentence Embeddings	Accuracy	77.33	# 3	Compare

Methods

Add Remove

BiLSTM • BPE • LSTM • Sigmoid Activation • Tanh Activation

Edit Social Preview

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove