TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	enwik8	Compressive Transformer (24 layers)	Bit per Character (BPC)	0.97	# 8
Language Modelling	enwik8	Compressive Transformer (24 layers)	Number of params	277M	# 2
Language Modelling	Hutter Prize	Compressive Transformer	Bit per Character (BPC)	0.97	# 2
Language Modelling	WikiText-103	Compressive Transformer (18L, M=1024)	Validation perplexity	16.0	# 5
Language Modelling	WikiText-103	Compressive Transformer (18L, M=1024)	Test perplexity	17.1	# 20

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/compressive-transformers-for-long-range-1/language-modelling-on-hutter-prize)](https://paperswithcode.com/sota/language-modelling-on-hutter-prize?p=compressive-transformers-for-long-range-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/compressive-transformers-for-long-range-1/language-modelling-on-enwiki8)](https://paperswithcode.com/sota/language-modelling-on-enwiki8?p=compressive-transformers-for-long-range-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/compressive-transformers-for-long-range-1/language-modelling-on-wikitext-103)](https://paperswithcode.com/sota/language-modelling-on-wikitext-103?p=compressive-transformers-for-long-range-1)`

Compressive Transformers for Long-Range Sequence Modelling

ICLR 2020 · Jack W. Rae, Anna Potapenko, Siddhant M. Jayakumar, Timothy P. Lillicrap ·

We present the Compressive Transformer, an attentive sequence model which compresses past memories for long-range sequence learning. We find the Compressive Transformer obtains state-of-the-art language modelling results in the WikiText-103 and Enwik8 benchmarks, achieving 17.1 ppl and 0.97 bpc respectively. We also find it can model high-frequency speech effectively and can be used as a memory mechanism for RL, demonstrated on an object matching task. To promote the domain of long-range sequence learning, we propose a new open-vocabulary language modelling benchmark derived from books, PG-19.

PDF Abstract ICLR 2020 PDF ICLR 2020 Abstract

Code

Add Remove Mark official

labmlai/annotated_deep_learning_pap…

↳ View annotated code at

labml.ai

47,519

google-deepmind/pg19

218

deepmind/pg19

218

lucidrains/block-recurrent-transfor…

203

lucidrains/compressive-transformer-…

151

See all 6 implementations

Tasks

Add Remove

Language Modelling

Datasets

Introduced in the Paper:

PG-19

Used in the Paper:

WikiText-2

WikiText-103

BookCorpus

LAMBADA

NarrativeQA Billion Word Benchmark

CBT Hutter Prize

Results from the Paper

Edit

Ranked #2 on Language Modelling on Hutter Prize

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	enwik8	Compressive Transformer (24 layers)	Bit per Character (BPC)	0.97	# 8	Compare
Language Modelling	enwik8	Compressive Transformer (24 layers)	Number of params	277M	# 2	Compare
Language Modelling	Hutter Prize	Compressive Transformer	Bit per Character (BPC)	0.97	# 2	Compare
Language Modelling	WikiText-103	Compressive Transformer (18L, M=1024)	Validation perplexity	16.0	# 5	Compare
Language Modelling	WikiText-103	Compressive Transformer (18L, M=1024)	Test perplexity	17.1	# 20	Compare

Methods

Add Remove

Adam • Adaptive Input Representations • Adaptive Softmax • Compressed Memory • Compressive Transformer • Cosine Annealing • Dense Connections • Dropout • Gradient Clipping • Layer Normalization • Linear Layer • Linear Warmup With Cosine Annealing • Multi-Head Attention • ReLU • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer-XL • Variational Dropout

Edit Social Preview

Compressive Transformers for Long-Range Sequence Modelling

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove