TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Text Summarization	Arxiv HEP-TH citation graph	BigBird-Pegasus	ROUGE-1	46.63	# 14
Text Summarization	Arxiv HEP-TH citation graph	BigBird-Pegasus	ROUGE-2	19.02	# 13
Text Summarization	Arxiv HEP-TH citation graph	BigBird-Pegasus	ROUGE-L	41.77	# 11
Text Classification	Arxiv HEP-TH citation graph	BigBird	Accuracy	92.31	# 1
Document Summarization	BBC XSum	BigBird-Pegasus	ROUGE-1	47.12	# 1
Document Summarization	BBC XSum	BigBird-Pegasus	ROUGE-2	24.05	# 1
Document Summarization	BBC XSum	BigBird-Pegasus	ROUGE-L	38.8	# 1
Text Summarization	BigPatent	BigBird-Pegasus	ROUGE-1	60.64	# 2
Text Summarization	BigPatent	BigBird-Pegasus	ROUGE-2	42.46	# 2
Text Summarization	BigPatent	BigBird-Pegasus	ROUGE-L	50.01	# 2
Document Summarization	CNN / Daily Mail	BigBird-Pegasus	ROUGE-1	43.84	# 10
Document Summarization	CNN / Daily Mail	BigBird-Pegasus	ROUGE-2	21.11	# 7
Document Summarization	CNN / Daily Mail	BigBird-Pegasus	ROUGE-L	40.74	# 7
Linguistic Acceptability	CoLA	BigBird	Accuracy	58.5%	# 32
Chromatin-Profile Prediction	DeepSea	BigBird	TF	96.1	# 1
Chromatin-Profile Prediction	DeepSea	BigBird	HM	88.7	# 1
Chromatin-Profile Prediction	DeepSea	BigBird	DHS	92.1	# 1
Question Answering	HotpotQA	BigBird-etc	ANS-F1	0.755	# 14
Question Answering	HotpotQA	BigBird-etc	SUP-F1	0.891	# 2
Question Answering	HotpotQA	BigBird-etc	JOINT-F1	0.736	# 2
Text Classification	Hyperpartisan News Detection	BigBird	Accuracy	92.2	# 1
Semantic Textual Similarity	MRPC	BigBird	F1	91.5%	# 6
Natural Language Inference	MultiNLI	BigBird	Matched	87.5	# 20
Text Classification	Patents	BigBird	Accuracy	69.3	# 1
Text Summarization	Pubmed	BigBird-Pegasus	ROUGE-1	46.32	# 14
Text Summarization	Pubmed	BigBird-Pegasus	ROUGE-2	20.65	# 10
Text Summarization	Pubmed	BigBird-Pegasus	ROUGE-L	42.33	# 10
Natural Language Inference	QNLI	BigBird	Accuracy	92.2%	# 26
Question Answering	Quora Question Pairs	BigBird	Accuracy	88.6%	# 15
Natural Language Inference	RTE	BigBird	Accuracy	75.0%	# 44
Sentiment Analysis	SST-2 Binary classification	BigBird	Accuracy	94.6	# 32
Semantic Textual Similarity	STS Benchmark	BigBird	Spearman Correlation	.878	# 16
Question Answering	TriviaQA	BigBird-etc	F1	80.9	# 2
Question Answering	WikiHop	BigBird-etc	Test	82.3	# 1
Text Classification	Yelp-5	BigBird	Accuracy	72.16%	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/text-classification-on-arxiv)](https://paperswithcode.com/sota/text-classification-on-arxiv?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/document-summarization-on-bbc-xsum)](https://paperswithcode.com/sota/document-summarization-on-bbc-xsum?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/chromatin-profile-prediction-on-deepsea)](https://paperswithcode.com/sota/chromatin-profile-prediction-on-deepsea?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/text-classification-on-hyperpartisan)](https://paperswithcode.com/sota/text-classification-on-hyperpartisan?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/text-classification-on-patents)](https://paperswithcode.com/sota/text-classification-on-patents?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/question-answering-on-wikihop)](https://paperswithcode.com/sota/question-answering-on-wikihop?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/text-summarization-on-bigpatent)](https://paperswithcode.com/sota/text-summarization-on-bigpatent?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/question-answering-on-hotpotqa)](https://paperswithcode.com/sota/question-answering-on-hotpotqa?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/question-answering-on-triviaqa)](https://paperswithcode.com/sota/question-answering-on-triviaqa?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/text-classification-on-yelp-5)](https://paperswithcode.com/sota/text-classification-on-yelp-5?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/semantic-textual-similarity-on-mrpc)](https://paperswithcode.com/sota/semantic-textual-similarity-on-mrpc?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/document-summarization-on-cnn-daily-mail)](https://paperswithcode.com/sota/document-summarization-on-cnn-daily-mail?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/text-summarization-on-arxiv)](https://paperswithcode.com/sota/text-summarization-on-arxiv?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/text-summarization-on-pubmed-1)](https://paperswithcode.com/sota/text-summarization-on-pubmed-1?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/question-answering-on-quora-question-pairs)](https://paperswithcode.com/sota/question-answering-on-quora-question-pairs?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/semantic-textual-similarity-on-sts-benchmark)](https://paperswithcode.com/sota/semantic-textual-similarity-on-sts-benchmark?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/natural-language-inference-on-multinli)](https://paperswithcode.com/sota/natural-language-inference-on-multinli?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/natural-language-inference-on-qnli)](https://paperswithcode.com/sota/natural-language-inference-on-qnli?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/linguistic-acceptability-on-cola)](https://paperswithcode.com/sota/linguistic-acceptability-on-cola?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/sentiment-analysis-on-sst-2-binary)](https://paperswithcode.com/sota/sentiment-analysis-on-sst-2-binary?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/natural-language-inference-on-rte)](https://paperswithcode.com/sota/natural-language-inference-on-rte?p=big-bird-transformers-for-longer-sequences)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/big-bird-transformers-for-longer-sequences/text-classification-on-imdb)](https://paperswithcode.com/sota/text-classification-on-imdb?p=big-bird-transformers-for-longer-sequences)`

Big Bird: Transformers for Longer Sequences

NeurIPS 2020 · Manzil Zaheer, Guru Guruganesh, Avinava Dubey, Joshua Ainslie, Chris Alberti, Santiago Ontanon, Philip Pham, Anirudh Ravula, Qifan Wang, Li Yang, Amr Ahmed ·

Transformers-based models, such as BERT, have been one of the most successful deep learning models for NLP. Unfortunately, one of their core limitations is the quadratic dependency (mainly in terms of memory) on the sequence length due to their full attention mechanism. To remedy this, we propose, BigBird, a sparse attention mechanism that reduces this quadratic dependency to linear. We show that BigBird is a universal approximator of sequence functions and is Turing complete, thereby preserving these properties of the quadratic, full attention model. Along the way, our theoretical analysis reveals some of the benefits of having $O(1)$ global tokens (such as CLS), that attend to the entire sequence as part of the sparse attention mechanism. The proposed sparse attention can handle sequences of length up to 8x of what was previously possible using similar hardware. As a consequence of the capability to handle longer context, BigBird drastically improves performance on various NLP tasks such as question answering and summarization. We also propose novel applications to genomics data.

PDF Abstract NeurIPS 2020 PDF NeurIPS 2020 Abstract

Code

Add Remove Mark official

google-research/bigbird official

552

huggingface/transformers

124,353

tensorflow/models

72,354

PaddlePaddle/PaddleNLP

11,349

facebookresearch/xformers

↳ Quickstart in

Colab

7,486

See all 11 implementations

Tasks

Add Remove

Linguistic Acceptability

Natural Language Inference

Question Answering

Semantic Textual Similarity

Text Classification

Text Summarization

Datasets

GLUE

SST

MultiNLI

IMDb Movie Reviews SST-2 Pubmed

QNLI

Natural Questions

MRPC

TriviaQA

CoLA

HotpotQA

CNN/Daily Mail

Quora Yelp

WikiHop

Quora Question Pairs RTE BigPatent STS Benchmark Arxiv HEP-TH citation graph Hyperpartisan News Detection

Results from the Paper

Edit

Ranked #1 on Text Classification on Arxiv HEP-TH citation graph

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Text Summarization	Arxiv HEP-TH citation graph	BigBird-Pegasus	ROUGE-1	46.63	# 14	Compare
			ROUGE-2	19.02	# 13	Compare
			ROUGE-L	41.77	# 11	Compare
Text Classification	Arxiv HEP-TH citation graph	BigBird	Accuracy	92.31	# 1	Compare
Document Summarization	BBC XSum	BigBird-Pegasus	ROUGE-1	47.12	# 1	Compare
			ROUGE-2	24.05	# 1	Compare
			ROUGE-L	38.8	# 1	Compare
Text Summarization	BigPatent	BigBird-Pegasus	ROUGE-1	60.64	# 2	Compare
			ROUGE-2	42.46	# 2	Compare
			ROUGE-L	50.01	# 2	Compare
Document Summarization	CNN / Daily Mail	BigBird-Pegasus	ROUGE-1	43.84	# 10	Compare
			ROUGE-2	21.11	# 7	Compare
			ROUGE-L	40.74	# 7	Compare
Linguistic Acceptability	CoLA	BigBird	Accuracy	58.5%	# 32	Compare
Chromatin-Profile Prediction	DeepSea	BigBird	TF	96.1	# 1	Compare
			HM	88.7	# 1	Compare
			DHS	92.1	# 1	Compare
Question Answering	HotpotQA	BigBird-etc	ANS-F1	0.755	# 14	Compare
			SUP-F1	0.891	# 2	Compare
			JOINT-F1	0.736	# 2	Compare
Text Classification	Hyperpartisan News Detection	BigBird	Accuracy	92.2	# 1	Compare
Semantic Textual Similarity	MRPC	BigBird	F1	91.5%	# 6	Compare
Natural Language Inference	MultiNLI	BigBird	Matched	87.5	# 20	Compare
Text Classification	Patents	BigBird	Accuracy	69.3	# 1	Compare
Text Summarization	Pubmed	BigBird-Pegasus	ROUGE-1	46.32	# 14	Compare
			ROUGE-2	20.65	# 10	Compare
			ROUGE-L	42.33	# 10	Compare
Natural Language Inference	QNLI	BigBird	Accuracy	92.2%	# 26	Compare
Question Answering	Quora Question Pairs	BigBird	Accuracy	88.6%	# 15	Compare
Natural Language Inference	RTE	BigBird	Accuracy	75.0%	# 44	Compare
Sentiment Analysis	SST-2 Binary classification	BigBird	Accuracy	94.6	# 32	Compare
Semantic Textual Similarity	STS Benchmark	BigBird	Spearman Correlation	.878	# 16	Compare
Question Answering	TriviaQA	BigBird-etc	F1	80.9	# 2	Compare
Question Answering	WikiHop	BigBird-etc	Test	82.3	# 1	Compare
Text Classification	Yelp-5	BigBird	Accuracy	72.16%	# 3	Compare

Methods

Add Remove

BigBird

Edit Social Preview

Big Bird: Transformers for Longer Sequences

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove