TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Language Modelling	enwik8	Sandwich Transformer (adaptive span)	Bit per Character (BPC)	0.968	# 7
Language Modelling	enwik8	Sandwich Transformer (adaptive span)	Number of params	209M	# 6
Language Modelling	WikiText-103	Sandwich Transformer	Test perplexity	17.96	# 28
Language Modelling	WikiText-103	Sandwich Transformer	Number of params	247M	# 19

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-transformer-models-by-reordering/language-modelling-on-enwiki8)](https://paperswithcode.com/sota/language-modelling-on-enwiki8?p=improving-transformer-models-by-reordering)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/improving-transformer-models-by-reordering/language-modelling-on-wikitext-103)](https://paperswithcode.com/sota/language-modelling-on-wikitext-103?p=improving-transformer-models-by-reordering)`

Improving Transformer Models by Reordering their Sublayers

ACL 2020 · Ofir Press, Noah A. Smith, Omer Levy ·

Multilayer transformer networks consist of interleaved self-attention and feedforward sublayers. Could ordering the sublayers in a different pattern lead to better performance? We generate randomly ordered transformers and train them with the language modeling objective. We observe that some of these models are able to achieve better performance than the interleaved baseline, and that those successful variants tend to have more self-attention at the bottom and more feedforward sublayers at the top. We propose a new transformer pattern that adheres to this property, the sandwich transformer, and show that it improves perplexity on multiple word-level and character-level language modeling benchmarks, at no cost in parameters, memory, or training time. However, the sandwich reordering pattern does not guarantee performance gains across every task, as we demonstrate on machine translation models. Instead, we suggest that further exploration of task-specific sublayer reorderings is needed in order to unlock additional gains.

PDF Abstract ACL 2020 PDF ACL 2020 Abstract

Code

Add Remove Mark official

ofirpress/sandwich_transformer

JunnYu/x-transformers-paddle

Tasks

Add Remove

Language Modelling

Machine Translation

Translation

Datasets

WikiText-2

WikiText-103

Results from the Paper

Edit

Ranked #7 on Language Modelling on enwik8

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Language Modelling	enwik8	Sandwich Transformer (adaptive span)	Bit per Character (BPC)	0.968	# 7	Compare
Language Modelling	enwik8	Sandwich Transformer (adaptive span)	Number of params	209M	# 6	Compare
Language Modelling	WikiText-103	Sandwich Transformer	Test perplexity	17.96	# 28	Compare
Language Modelling	WikiText-103	Sandwich Transformer	Number of params	247M	# 19	Compare

Methods

Add Remove

Adaptive Masking • Adaptive Span Transformer • Attention Dropout • Dense Connections • Dropout • Embedding Dropout • L1 Regularization • Layer Normalization • Linear Layer • Multi-Head Attention • ReLU • Residual Connection • Sandwich Transformer • Scaled Dot-Product Attention • Softmax

Edit Social Preview

Improving Transformer Models by Reordering their Sublayers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove