TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Question Answering	BoolQ	MUPPET Roberta Large	Accuracy	87.5	# 12
Question Answering	BoolQ	MUPPET Roberta Base	Accuracy	83.8	# 19
Abstractive Text Summarization	CNN / Daily Mail	MUPPET BART Large	ROUGE-1	44.45	# 12
Abstractive Text Summarization	CNN / Daily Mail	MUPPET BART Large	ROUGE-2	21.25	# 17
Abstractive Text Summarization	CNN / Daily Mail	MUPPET BART Large	ROUGE-L	41.4	# 10
Common Sense Reasoning	CommonsenseQA	MUPPET Roberta Large	Accuracy	79.2	# 6
Text Summarization	GigaWord	MUPPET BART Large	ROUGE-1	40.4	# 3
Text Summarization	GigaWord	MUPPET BART Large	ROUGE-2	20.54	# 4
Text Summarization	GigaWord	MUPPET BART Large	ROUGE-L	36.21	# 15
Sentence Completion	HellaSwag	MUPPET Roberta Large	Accuracy	86.4	# 15
Text Summarization	Reddit TIFU	MUPPET BART Large	ROUGE-1	30.3	# 3
Text Summarization	Reddit TIFU	MUPPET BART Large	ROUGE-2	11.25	# 1
Text Summarization	Reddit TIFU	MUPPET BART Large	ROUGE-L	24.92	# 2
Natural Language Inference	RTE	MUPPET Roberta Large	Accuracy	92.8%	# 6
Sentiment Analysis	SST-2 Binary classification	MUPPET Roberta Large	Accuracy	97.4	# 3
Sentiment Analysis	SST-2 Binary classification	MUPPET Roberta base	Accuracy	96.7	# 11

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/muppet-massive-multi-task-representations/text-summarization-on-gigaword)](https://paperswithcode.com/sota/text-summarization-on-gigaword?p=muppet-massive-multi-task-representations)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/muppet-massive-multi-task-representations/text-summarization-on-reddit-tifu)](https://paperswithcode.com/sota/text-summarization-on-reddit-tifu?p=muppet-massive-multi-task-representations)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/muppet-massive-multi-task-representations/sentiment-analysis-on-sst-2-binary)](https://paperswithcode.com/sota/sentiment-analysis-on-sst-2-binary?p=muppet-massive-multi-task-representations)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/muppet-massive-multi-task-representations/common-sense-reasoning-on-commonsenseqa)](https://paperswithcode.com/sota/common-sense-reasoning-on-commonsenseqa?p=muppet-massive-multi-task-representations)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/muppet-massive-multi-task-representations/natural-language-inference-on-rte)](https://paperswithcode.com/sota/natural-language-inference-on-rte?p=muppet-massive-multi-task-representations)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/muppet-massive-multi-task-representations/question-answering-on-boolq)](https://paperswithcode.com/sota/question-answering-on-boolq?p=muppet-massive-multi-task-representations)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/muppet-massive-multi-task-representations/abstractive-text-summarization-on-cnn-daily)](https://paperswithcode.com/sota/abstractive-text-summarization-on-cnn-daily?p=muppet-massive-multi-task-representations)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/muppet-massive-multi-task-representations/sentence-completion-on-hellaswag)](https://paperswithcode.com/sota/sentence-completion-on-hellaswag?p=muppet-massive-multi-task-representations)`

Muppet: Massive Multi-task Representations with Pre-Finetuning

EMNLP 2021 · Armen Aghajanyan, Anchit Gupta, Akshat Shrivastava, Xilun Chen, Luke Zettlemoyer, Sonal Gupta ·

We propose pre-finetuning, an additional large-scale learning stage between language model pre-training and fine-tuning. Pre-finetuning is massively multi-task learning (around 50 datasets, over 4.8 million total labeled examples), and is designed to encourage learning of representations that generalize better to many different tasks. We show that pre-finetuning consistently improves performance for pretrained discriminators (e.g.~RoBERTa) and generation models (e.g.~BART) on a wide range of tasks (sentence prediction, commonsense reasoning, MRC, etc.), while also significantly improving sample efficiency during fine-tuning. We also show that large-scale multi-tasking is crucial; pre-finetuning can hurt performance when few tasks are used up until a critical point (usually above 15) after which performance improves linearly in the number of tasks.

PDF Abstract EMNLP 2021 PDF EMNLP 2021 Abstract

Code

Add Remove Mark official

facebook/muppet-roberta-base official

facebook/muppet-roberta-large official

Tasks

Add Remove

Abstractive Text Summarization

Common Sense Reasoning

Language Modelling

Multi-Task Learning

Natural Language Inference

Question Answering

Sentence

Sentence Completion

Sentiment Analysis

Text Summarization

Datasets

GLUE

SST

SQuAD

MultiNLI SST-2

QNLI

CoLA

CNN/Daily Mail

HellaSwag

BoolQ

RACE

CommonsenseQA

ANLI

SWAG RTE

Reddit TIFU

Results from the Paper

Edit

Ranked #3 on Text Summarization on GigaWord (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Question Answering	BoolQ	MUPPET Roberta Large	Accuracy	87.5	# 12	Compare
Question Answering	BoolQ	MUPPET Roberta Base	Accuracy	83.8	# 19	Compare
Abstractive Text Summarization	CNN / Daily Mail	MUPPET BART Large	ROUGE-1	44.45	# 12	Compare
			ROUGE-2	21.25	# 17	Compare
			ROUGE-L	41.4	# 10	Compare
Common Sense Reasoning	CommonsenseQA	MUPPET Roberta Large	Accuracy	79.2	# 6	Compare
Text Summarization	GigaWord	MUPPET BART Large	ROUGE-1	40.4	# 3	Compare
			ROUGE-2	20.54	# 4	Compare
			ROUGE-L	36.21	# 15	Compare
Sentence Completion	HellaSwag	MUPPET Roberta Large	Accuracy	86.4	# 15	Compare
Text Summarization	Reddit TIFU	MUPPET BART Large	ROUGE-1	30.3	# 3	Compare
			ROUGE-2	11.25	# 1	Compare
			ROUGE-L	24.92	# 2	Compare
Natural Language Inference	RTE	MUPPET Roberta Large	Accuracy	92.8%	# 6	Compare
Sentiment Analysis	SST-2 Binary classification	MUPPET Roberta Large	Accuracy	97.4	# 3	Compare
Sentiment Analysis	SST-2 Binary classification	MUPPET Roberta base	Accuracy	96.7	# 11	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Muppet: Massive Multi-task Representations with Pre-Finetuning

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove