TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semantic Textual Similarity	SICK	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.7163	# 13
Semantic Textual Similarity	SICK	Trans-Encoder-BERT-base-cross (unsup.)	Spearman Correlation	0.6952	# 17
Semantic Textual Similarity	SICK	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.7192	# 12
Semantic Textual Similarity	SICK	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.7276	# 11
Semantic Textual Similarity	SICK	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.7133	# 14
Semantic Textual Similarity	STS12	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.7509	# 12
Semantic Textual Similarity	STS12	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.7828	# 8
Semantic Textual Similarity	STS12	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.7637	# 11
Semantic Textual Similarity	STS12	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.7819	# 9
Semantic Textual Similarity	STS13	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.8831	# 9
Semantic Textual Similarity	STS13	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8851	# 8
Semantic Textual Similarity	STS13	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.8831	# 9
Semantic Textual Similarity	STS13	Trans-Encoder-BERT-base-cross (unsup.)	Spearman Correlation	0.8559	# 12
Semantic Textual Similarity	STS13	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.851	# 13
Semantic Textual Similarity	STS14	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8137	# 11
Semantic Textual Similarity	STS14	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.779	# 13
Semantic Textual Similarity	STS14	Trans-Encoder-RoBERTa-large-bi (unsup.)	Spearman Correlation	0.8176	# 10
Semantic Textual Similarity	STS14	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.7903	# 12
Semantic Textual Similarity	STS14	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.8194	# 9
Semantic Textual Similarity	STS15	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.8508	# 12
Semantic Textual Similarity	STS15	Trans-Encoder-BERT-base-cross (unsup.)	Spearman Correlation	0.8444	# 13
Semantic Textual Similarity	STS15	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.8863	# 7
Semantic Textual Similarity	STS15	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.8577	# 11
Semantic Textual Similarity	STS15	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8816	# 8
Semantic Textual Similarity	STS16	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8481	# 9
Semantic Textual Similarity	STS16	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.8305	# 12
Semantic Textual Similarity	STS16	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.8503	# 7
Semantic Textual Similarity	STS16	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.8377	# 11
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8616	# 22
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-RoBERTa-large-bi (unsup.)	Spearman Correlation	0.8655	# 19
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.8465	# 26
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.867	# 17
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.839	# 29

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/trans-encoder-unsupervised-sentence-pair/semantic-textual-similarity-on-sts15)](https://paperswithcode.com/sota/semantic-textual-similarity-on-sts15?p=trans-encoder-unsupervised-sentence-pair)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/trans-encoder-unsupervised-sentence-pair/semantic-textual-similarity-on-sts16)](https://paperswithcode.com/sota/semantic-textual-similarity-on-sts16?p=trans-encoder-unsupervised-sentence-pair)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/trans-encoder-unsupervised-sentence-pair/semantic-textual-similarity-on-sts12)](https://paperswithcode.com/sota/semantic-textual-similarity-on-sts12?p=trans-encoder-unsupervised-sentence-pair)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/trans-encoder-unsupervised-sentence-pair/semantic-textual-similarity-on-sts13)](https://paperswithcode.com/sota/semantic-textual-similarity-on-sts13?p=trans-encoder-unsupervised-sentence-pair)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/trans-encoder-unsupervised-sentence-pair/semantic-textual-similarity-on-sts14)](https://paperswithcode.com/sota/semantic-textual-similarity-on-sts14?p=trans-encoder-unsupervised-sentence-pair)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/trans-encoder-unsupervised-sentence-pair/semantic-textual-similarity-on-sick)](https://paperswithcode.com/sota/semantic-textual-similarity-on-sick?p=trans-encoder-unsupervised-sentence-pair)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/trans-encoder-unsupervised-sentence-pair/semantic-textual-similarity-on-sts-benchmark)](https://paperswithcode.com/sota/semantic-textual-similarity-on-sts-benchmark?p=trans-encoder-unsupervised-sentence-pair)`

Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations

ICLR 2022 · Fangyu Liu, Yunlong Jiao, Jordan Massiah, Emine Yilmaz, Serhii Havrylov ·

In NLP, a large volume of tasks involve pairwise comparison between two sequences (e.g. sentence similarity and paraphrase identification). Predominantly, two formulations are used for sentence-pair tasks: bi-encoders and cross-encoders. Bi-encoders produce fixed-dimensional sentence representations and are computationally efficient, however, they usually underperform cross-encoders. Cross-encoders can leverage their attention heads to exploit inter-sentence interactions for better performance but they require task fine-tuning and are computationally more expensive. In this paper, we present a completely unsupervised sentence representation model termed as Trans-Encoder that combines the two learning paradigms into an iterative joint framework to simultaneously learn enhanced bi- and cross-encoders. Specifically, on top of a pre-trained Language Model (PLM), we start with converting it to an unsupervised bi-encoder, and then alternate between the bi- and cross-encoder task formulations. In each alternation, one task formulation will produce pseudo-labels which are used as learning signals for the other task formulation. We then propose an extension to conduct such self-distillation approach on multiple PLMs in parallel and use the average of their pseudo-labels for mutual-distillation. Trans-Encoder creates, to the best of our knowledge, the first completely unsupervised cross-encoder and also a state-of-the-art unsupervised bi-encoder for sentence similarity. Both the bi-encoder and cross-encoder formulations of Trans-Encoder outperform recently proposed state-of-the-art unsupervised sentence encoders such as Mirror-BERT and SimCSE by up to 5% on the sentence similarity benchmarks.

PDF Abstract ICLR 2022 PDF ICLR 2022 Abstract

Code

Add Remove Mark official

amzn/trans-encoder official

131

Tasks

Add Remove

Contrastive Learning

Language Modelling

Paraphrase Identification

Semantic Textual Similarity

Sentence

Sentence Similarity

Datasets

GLUE

SNLI

QNLI

SICK

Quora Question Pairs STS Benchmark

Results from the Paper

Edit

Ranked #7 on Semantic Textual Similarity on STS16

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semantic Textual Similarity	SICK	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.7163	# 13	Compare
Semantic Textual Similarity	SICK	Trans-Encoder-BERT-base-cross (unsup.)	Spearman Correlation	0.6952	# 17	Compare
Semantic Textual Similarity	SICK	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.7192	# 12	Compare
Semantic Textual Similarity	SICK	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.7276	# 11	Compare
Semantic Textual Similarity	SICK	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.7133	# 14	Compare
Semantic Textual Similarity	STS12	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.7509	# 12	Compare
Semantic Textual Similarity	STS12	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.7828	# 8	Compare
Semantic Textual Similarity	STS12	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.7637	# 11	Compare
Semantic Textual Similarity	STS12	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.7819	# 9	Compare
Semantic Textual Similarity	STS13	Trans-Encoder-BERT-large-cross (unsup.)	Spearman Correlation	0.8831	# 9	Compare
Semantic Textual Similarity	STS13	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8851	# 8	Compare
Semantic Textual Similarity	STS13	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.8831	# 9	Compare
Semantic Textual Similarity	STS13	Trans-Encoder-BERT-base-cross (unsup.)	Spearman Correlation	0.8559	# 12	Compare
Semantic Textual Similarity	STS13	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.851	# 13	Compare
Semantic Textual Similarity	STS14	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8137	# 11	Compare
Semantic Textual Similarity	STS14	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.779	# 13	Compare
Semantic Textual Similarity	STS14	Trans-Encoder-RoBERTa-large-bi (unsup.)	Spearman Correlation	0.8176	# 10	Compare
Semantic Textual Similarity	STS14	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.7903	# 12	Compare
Semantic Textual Similarity	STS14	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.8194	# 9	Compare
Semantic Textual Similarity	STS15	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.8508	# 12	Compare
Semantic Textual Similarity	STS15	Trans-Encoder-BERT-base-cross (unsup.)	Spearman Correlation	0.8444	# 13	Compare
Semantic Textual Similarity	STS15	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.8863	# 7	Compare
Semantic Textual Similarity	STS15	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.8577	# 11	Compare
Semantic Textual Similarity	STS15	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8816	# 8	Compare
Semantic Textual Similarity	STS16	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8481	# 9	Compare
Semantic Textual Similarity	STS16	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.8305	# 12	Compare
Semantic Textual Similarity	STS16	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.8503	# 7	Compare
Semantic Textual Similarity	STS16	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.8377	# 11	Compare
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-BERT-large-bi (unsup.)	Spearman Correlation	0.8616	# 22	Compare
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-RoBERTa-large-bi (unsup.)	Spearman Correlation	0.8655	# 19	Compare
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-RoBERTa-base-cross (unsup.)	Spearman Correlation	0.8465	# 26	Compare
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-RoBERTa-large-cross (unsup.)	Spearman Correlation	0.867	# 17	Compare
Semantic Textual Similarity	STS Benchmark	Trans-Encoder-BERT-base-bi (unsup.)	Spearman Correlation	0.839	# 29	Compare

Methods

Add Remove

Mirror-BERT • SimCSE • Trans-Encoder

Edit Social Preview

Trans-Encoder: Unsupervised sentence-pair modelling through self- and mutual-distillations

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove