TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	enwik8	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.232	# 33
Language Modelling	enwik8	AWD-LSTM (3 layers)	Number of params	47M	# 22
Language Modelling	Hutter Prize	3-layer AWD-LSTM	Bit per Character (BPC)	1.232	# 13
Language Modelling	Hutter Prize	3-layer AWD-LSTM	Number of params	47M	# 8
Language Modelling	Penn Treebank (Character Level)	3-layer AWD-LSTM	Bit per Character (BPC)	1.175	# 7
Language Modelling	Penn Treebank (Character Level)	3-layer AWD-LSTM	Number of params	13.8M	# 8
Language Modelling	Penn Treebank (Character Level)	6-layer QRNN	Bit per Character (BPC)	1.187	# 9
Language Modelling	Penn Treebank (Character Level)	6-layer QRNN	Number of params	13.8M	# 8
Language Modelling	WikiText-103	4 layer QRNN	Validation perplexity	32.0	# 32
Language Modelling	WikiText-103	4 layer QRNN	Test perplexity	33.0	# 75
Language Modelling	WikiText-103	4 layer QRNN	Number of params	151M	# 29

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/an-analysis-of-neural-language-modeling-at/language-modelling-on-penn-treebank-character)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-character?p=an-analysis-of-neural-language-modeling-at)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/an-analysis-of-neural-language-modeling-at/language-modelling-on-hutter-prize)](https://paperswithcode.com/sota/language-modelling-on-hutter-prize?p=an-analysis-of-neural-language-modeling-at)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/an-analysis-of-neural-language-modeling-at/language-modelling-on-enwiki8)](https://paperswithcode.com/sota/language-modelling-on-enwiki8?p=an-analysis-of-neural-language-modeling-at)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/an-analysis-of-neural-language-modeling-at/language-modelling-on-wikitext-103)](https://paperswithcode.com/sota/language-modelling-on-wikitext-103?p=an-analysis-of-neural-language-modeling-at)`

An Analysis of Neural Language Modeling at Multiple Scales

22 Mar 2018 · Stephen Merity, Nitish Shirish Keskar, Richard Socher ·

Many of the leading approaches in language modeling introduce novel, complex and specialized architectures. We take existing state-of-the-art word level language models based on LSTMs and QRNNs and extend them to both larger vocabularies as well as character-level granularity. When properly tuned, LSTMs and QRNNs achieve state-of-the-art results on character-level (Penn Treebank, enwik8) and word-level (WikiText-103) datasets, respectively. Results are obtained in only 12 hours (WikiText-103) to 2 days (enwik8) using a single modern GPU.

PDF Abstract

Code

Add Remove Mark official

salesforce/awd-lstm-lm official

1,956

Han-JD/GRU-D

116

jb33k/awd-lstm-lm-ThinkNet

mnhng/hier-char-emb

SachinIchake/KALM

See all 12 implementations

Tasks

Add Remove

Language Modelling

Datasets

Penn Treebank

WikiText-2

WikiText-103 Hutter Prize

Results from the Paper

Edit

Ranked #7 on Language Modelling on Penn Treebank (Character Level)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	enwik8	AWD-LSTM (3 layers)	Bit per Character (BPC)	1.232	# 33	Compare
Language Modelling	enwik8	AWD-LSTM (3 layers)	Number of params	47M	# 22	Compare
Language Modelling	Hutter Prize	3-layer AWD-LSTM	Bit per Character (BPC)	1.232	# 13	Compare
Language Modelling	Hutter Prize	3-layer AWD-LSTM	Number of params	47M	# 8	Compare
Language Modelling	Penn Treebank (Character Level)	3-layer AWD-LSTM	Bit per Character (BPC)	1.175	# 7	Compare
Language Modelling	Penn Treebank (Character Level)	3-layer AWD-LSTM	Number of params	13.8M	# 8	Compare
Language Modelling	Penn Treebank (Character Level)	6-layer QRNN	Bit per Character (BPC)	1.187	# 9	Compare
Language Modelling	Penn Treebank (Character Level)	6-layer QRNN	Number of params	13.8M	# 8	Compare
Language Modelling	WikiText-103	4 layer QRNN	Validation perplexity	32.0	# 32	Compare
			Test perplexity	33.0	# 75	Compare
			Number of params	151M	# 29	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

An Analysis of Neural Language Modeling at Multiple Scales

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove