TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Natural Language Inference	ANLI test	GPT-3	A1	36.8	# 13
Natural Language Inference	ANLI test	GPT-3	A2	34	# 23
Natural Language Inference	ANLI test	GPT-3	A3	40.2	# 18
Common Sense Reasoning	ARC (Challenge)	GPT-3 175B (1 shot)	Accuracy	53.2	# 25
Common Sense Reasoning	ARC (Challenge)	GPT-3 175B (0-shot)	Accuracy	51.4	# 27
Common Sense Reasoning	ARC (Easy)	GPT-3 175B (1 shot)	Accuracy	71.2	# 26
Common Sense Reasoning	ARC (Easy)	GPT-3 175B (0-shot)	Accuracy	68.8	# 33
Question Answering	BoolQ	GPT-3 75B (0-shot)	Accuracy	60.5	# 50
Question Answering	BoolQ	GPT-3 175B (few-shot, k=32)	Accuracy	76.4	# 31
Natural Language Inference	CommitmentBank	GPT-3 175B (few-shot, k=32)	F1	52	# 9
Natural Language Inference	CommitmentBank	GPT-3 175B (Few-Shot)	Accuracy	75.6	# 13
Question Answering	COPA	GPT-3 Large 760M (0-shot)	Accuracy	73.0	# 46
Question Answering	COPA	GPT-3 175B (few-shot, k=32)	Accuracy	92	# 11
Question Answering	COPA	GPT-3 13B (few-shot, k=32)	Accuracy	86	# 25
Question Answering	COPA	GPT-3 175B (1-shot)	Accuracy	87	# 22
Question Answering	COPA	GPT-3 175B (0-shot)	Accuracy	91	# 13
Question Answering	CoQA	GPT-3 175B (few-shot, k=32)	Overall	85	# 1
Question Answering	DROP Test	GPT-3 175B (few-shot, k=32)	F1	36.5	# 15
Sentence Completion	HellaSwag	GPT-3 Large 760M (0-shot)	Accuracy	51.0	# 61
Sentence Completion	HellaSwag	GPT-3 (0-shot)	Accuracy	78.9	# 44
Sentence Completion	HellaSwag	GPT-3 175B (few-shot, k=32)	Accuracy	79.3	# 41
Language Modelling	LAMBADA	GPT-3 13B (Zero-Shot)	Accuracy	72.5	# 20
Language Modelling	LAMBADA	GPT-3 13B (Zero-Shot)	Perplexity	3.56	# 3
Language Modelling	LAMBADA	GPT-3 2.7B (Zero-Shot)	Accuracy	67.1	# 28
Language Modelling	LAMBADA	GPT-3 2.7B (Zero-Shot)	Perplexity	4.60	# 9
Language Modelling	LAMBADA	GPT-3 6.7B (Zero-Shot)	Accuracy	70.3	# 23
Language Modelling	LAMBADA	GPT-3 6.7B (Zero-Shot)	Perplexity	4.00	# 6
Language Modelling	LAMBADA	GPT-3 175B (Zero-Shot)	Accuracy	76.2	# 18
Language Modelling	LAMBADA	GPT-3 175B (Zero-Shot)	Perplexity	3.00	# 2
Language Modelling	LAMBADA	GPT-3 175B (Few-Shot)	Accuracy	86.4	# 3
Language Modelling	LAMBADA	GPT-3 175B (Few-Shot)	Perplexity	1.92	# 1
Multi-task Language Understanding	MMLU	GPT-3 175B (5-shot)	Average (%)	43.9	# 73
Multi-task Language Understanding	MMLU	GPT-3 2.7B (5-shot)	Average (%)	25.9	# 100
Multi-task Language Understanding	MMLU	GPT-3 6.7B (5-shot)	Average (%)	24.9	# 104
Multi-task Language Understanding	MMLU	GPT-3 13B (few-shot, k=32)	Average (%)	26	# 98
Question Answering	MultiRC	GPT-3 175B (Few-Shot)	F1	75.4	# 13
Question Answering	Natural Questions	GPT-3 175B (Few-Shot, k=64)	EM	29.9	# 27
Question Answering	OBQA	GPT-3 175B (zero-shot)	Accuracy	57.6	# 5
Question Answering	OpenBookQA	GPT-3 175B (few-shot, k=32)	Accuracy	65.4	# 25
Language Modelling	Penn Treebank (Word Level)	GPT-3 (Zero-Shot)	Test perplexity	20.5	# 1
Language Modelling	Penn Treebank (Word Level)	GPT-3 (Zero-Shot)	Params	175000M	# 1
Question Answering	PIQA	GPT-3 175B (0-shot)	Accuracy	81.0	# 24
Question Answering	PIQA	GPT-3 Large 760M (0-shot)	Accuracy	72.9	# 47
Question Answering	QuAC	GPT-3 175B (few-shot, k=32)	F1	44.3	# 2
Reading Comprehension	RACE	GPT-3 175B (zero-shot)	Accuracy (High)	45.5	# 13
Reading Comprehension	RACE	GPT-3 175B (0-shot)	Accuracy (Middle)	58.4	# 13
Question Answering	RACE	GPT-3 175B (Few-Shot)	RACE-h	46.8	# 5
Question Answering	RACE	GPT-3 175B (few-shot, k=32)	RACE-m	58.1	# 6
Common Sense Reasoning	ReCoRD	GPT-3 Large 760M (0-shot)	EM	82.1	# 15
Natural Language Inference	RTE	GPT-3 175B (few-shot, k=32)	Accuracy	69%	# 57
Question Answering	StoryCloze	GPT-3 Large 760M (zero-shot)	Accuracy	72.4	# 19
Question Answering	Story Cloze	GPT-3 175B (Few-Shot)	Accuracy	87.7	# 2
Question Answering	TriviaQA	GPT-3 175B (Few-Shot)	EM	71.2	# 23
Question Answering	WebQuestions	GPT-3-175B (One-Shot)	EM	25.3	# 13
Question Answering	WebQuestions	GPT-3-175B (Few-Shot)	EM	41.5	# 8
Question Answering	WebQuestions	GPT-3-175B (Zero-Shot)	EM	14.4	# 17
Coreference Resolution	Winograd Schema Challenge	GPT-3 175B (few-shot)	Accuracy	80.1	# 21
Common Sense Reasoning	WinoGrande	GPT-3 175B (0-shot)	Accuracy	70.2	# 36
Common Sense Reasoning	WinoGrande	GPT-3 Large 760M (0-shot)	Accuracy	57.4	# 55
Unsupervised Machine Translation	WMT2014 English-French	GPT-3 175B (Few-Shot)	BLEU	32.6	# 5
Unsupervised Machine Translation	WMT2014 French-English	GPT-3 175B (Few-Shot)	BLEU	39.2	# 1
Unsupervised Machine Translation	WMT2016 English-German	GPT-3 175B (Few-Shot)	BLEU	29.7	# 1
Unsupervised Machine Translation	WMT2016 English-Romanian	GPT-3 175B (Few-Shot)	BLEU	21	# 1
Unsupervised Machine Translation	WMT2016 German-English	GPT-3 175B (Few-Shot)	BLEU	40.6	# 1
Unsupervised Machine Translation	WMT2016 Romanian-English	GPT-3 175B (Few-Shot)	BLEU	39.5	# 1
Word Sense Disambiguation	Words in Context	GPT-3 175B (few-shot, k=32)	Accuracy	49.4	# 36

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-coqa)](https://paperswithcode.com/sota/question-answering-on-coqa?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/language-modelling-on-penn-treebank-word)](https://paperswithcode.com/sota/language-modelling-on-penn-treebank-word?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/unsupervised-machine-translation-on-wmt2014-1)](https://paperswithcode.com/sota/unsupervised-machine-translation-on-wmt2014-1?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/unsupervised-machine-translation-on-wmt2016)](https://paperswithcode.com/sota/unsupervised-machine-translation-on-wmt2016?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/unsupervised-machine-translation-on-wmt2016-2)](https://paperswithcode.com/sota/unsupervised-machine-translation-on-wmt2016-2?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/unsupervised-machine-translation-on-wmt2016-1)](https://paperswithcode.com/sota/unsupervised-machine-translation-on-wmt2016-1?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/unsupervised-machine-translation-on-wmt2016-3)](https://paperswithcode.com/sota/unsupervised-machine-translation-on-wmt2016-3?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-quac)](https://paperswithcode.com/sota/question-answering-on-quac?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-story-cloze)](https://paperswithcode.com/sota/question-answering-on-story-cloze?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/language-modelling-on-lambada)](https://paperswithcode.com/sota/language-modelling-on-lambada?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-obqa)](https://paperswithcode.com/sota/question-answering-on-obqa?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-race)](https://paperswithcode.com/sota/question-answering-on-race?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/unsupervised-machine-translation-on-wmt2014-2)](https://paperswithcode.com/sota/unsupervised-machine-translation-on-wmt2014-2?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-webquestions)](https://paperswithcode.com/sota/question-answering-on-webquestions?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/natural-language-inference-on-commitmentbank)](https://paperswithcode.com/sota/natural-language-inference-on-commitmentbank?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-copa)](https://paperswithcode.com/sota/question-answering-on-copa?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/natural-language-inference-on-anli-test)](https://paperswithcode.com/sota/natural-language-inference-on-anli-test?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-multirc)](https://paperswithcode.com/sota/question-answering-on-multirc?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/reading-comprehension-on-race)](https://paperswithcode.com/sota/reading-comprehension-on-race?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-drop-test)](https://paperswithcode.com/sota/question-answering-on-drop-test?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/common-sense-reasoning-on-record)](https://paperswithcode.com/sota/common-sense-reasoning-on-record?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-storycloze)](https://paperswithcode.com/sota/question-answering-on-storycloze?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/coreference-resolution-on-winograd-schema)](https://paperswithcode.com/sota/coreference-resolution-on-winograd-schema?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-triviaqa)](https://paperswithcode.com/sota/question-answering-on-triviaqa?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-piqa)](https://paperswithcode.com/sota/question-answering-on-piqa?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/common-sense-reasoning-on-arc-challenge)](https://paperswithcode.com/sota/common-sense-reasoning-on-arc-challenge?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-openbookqa)](https://paperswithcode.com/sota/question-answering-on-openbookqa?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/common-sense-reasoning-on-arc-easy)](https://paperswithcode.com/sota/common-sense-reasoning-on-arc-easy?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-natural-questions)](https://paperswithcode.com/sota/question-answering-on-natural-questions?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/question-answering-on-boolq)](https://paperswithcode.com/sota/question-answering-on-boolq?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/common-sense-reasoning-on-winogrande)](https://paperswithcode.com/sota/common-sense-reasoning-on-winogrande?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/word-sense-disambiguation-on-words-in-context)](https://paperswithcode.com/sota/word-sense-disambiguation-on-words-in-context?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/sentence-completion-on-hellaswag)](https://paperswithcode.com/sota/sentence-completion-on-hellaswag?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/natural-language-inference-on-rte)](https://paperswithcode.com/sota/natural-language-inference-on-rte?p=language-models-are-few-shot-learners)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-models-are-few-shot-learners/multi-task-language-understanding-on-mmlu)](https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu?p=language-models-are-few-shot-learners)`

Language Models are Few-Shot Learners

NeurIPS 2020 · Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei ·

Recent work has demonstrated substantial gains on many NLP tasks and benchmarks by pre-training on a large corpus of text followed by fine-tuning on a specific task. While typically task-agnostic in architecture, this method still requires task-specific fine-tuning datasets of thousands or tens of thousands of examples. By contrast, humans can generally perform a new language task from only a few examples or from simple instructions - something which current NLP systems still largely struggle to do. Here we show that scaling up language models greatly improves task-agnostic, few-shot performance, sometimes even reaching competitiveness with prior state-of-the-art fine-tuning approaches. Specifically, we train GPT-3, an autoregressive language model with 175 billion parameters, 10x more than any previous non-sparse language model, and test its performance in the few-shot setting. For all tasks, GPT-3 is applied without any gradient updates or fine-tuning, with tasks and few-shot demonstrations specified purely via text interaction with the model. GPT-3 achieves strong performance on many NLP datasets, including translation, question-answering, and cloze tasks, as well as several tasks that require on-the-fly reasoning or domain adaptation, such as unscrambling words, using a novel word in a sentence, or performing 3-digit arithmetic. At the same time, we also identify some datasets where GPT-3's few-shot learning still struggles, as well as some datasets where GPT-3 faces methodological issues related to training on large web corpora. Finally, we find that GPT-3 can generate samples of news articles which human evaluators have difficulty distinguishing from articles written by humans. We discuss broader societal impacts of this finding and of GPT-3 in general.

PDF Abstract NeurIPS 2020 PDF NeurIPS 2020 Abstract

Code

Add Remove Mark official

openai/gpt-3 official

15,587

ggerganov/llama.cpp

55,681

PaddlePaddle/PaddleNLP

10,241

EleutherAI/gpt-neo

↳ Quickstart in

Colab

8,140

EleutherAI/lm_evaluation_harness

↳ Quickstart in

Spaces

4,906

See all 47 implementations

Tasks

Add Remove

Common Sense Reasoning

Coreference Resolution

Domain Adaptation

Few-Shot Learning

Language Modelling

Multi-task Language Understanding

Multi-Task Learning

Natural Language Inference

Question Answering

Reading Comprehension

Sentence

Sentence Completion

Unsupervised Machine Translation

Word Sense Disambiguation

Zero-Shot Learning

Datasets

GLUE

Natural Questions

Penn Treebank

MMLU

TriviaQA

HellaSwag

BoolQ

SuperGLUE

RACE

PIQA

OpenBookQA

WebText

WinoGrande

WSC

DROP

COPA

WMT 2014

ANLI

CoQA

WebQuestions

LAMBADA

WMT 2016

QuAC

MultiRC

ROCStories

ReCoRD

ARC (AI2 Reasoning Challenge) RTE StoryCloze

WMT 2016 News CommitmentBank

Results from the Paper

Edit

Ranked #1 on Question Answering on CoQA (Overall metric)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Natural Language Inference	ANLI test	GPT-3	A1	36.8	# 13	Compare
			A2	34	# 23	Compare
			A3	40.2	# 18	Compare
Common Sense Reasoning	ARC (Challenge)	GPT-3 175B (1 shot)	Accuracy	53.2	# 25	Compare
Common Sense Reasoning	ARC (Challenge)	GPT-3 175B (0-shot)	Accuracy	51.4	# 27	Compare
Common Sense Reasoning	ARC (Easy)	GPT-3 175B (1 shot)	Accuracy	71.2	# 26	Compare
Common Sense Reasoning	ARC (Easy)	GPT-3 175B (0-shot)	Accuracy	68.8	# 33	Compare
Question Answering	BoolQ	GPT-3 75B (0-shot)	Accuracy	60.5	# 50	Compare
Question Answering	BoolQ	GPT-3 175B (few-shot, k=32)	Accuracy	76.4	# 31	Compare
Natural Language Inference	CommitmentBank	GPT-3 175B (few-shot, k=32)	F1	52	# 9	Compare
Natural Language Inference	CommitmentBank	GPT-3 175B (Few-Shot)	Accuracy	75.6	# 13	Compare
Question Answering	COPA	GPT-3 Large 760M (0-shot)	Accuracy	73.0	# 46	Compare
Question Answering	COPA	GPT-3 175B (few-shot, k=32)	Accuracy	92	# 11	Compare
Question Answering	COPA	GPT-3 13B (few-shot, k=32)	Accuracy	86	# 25	Compare
Question Answering	COPA	GPT-3 175B (1-shot)	Accuracy	87	# 22	Compare
Question Answering	COPA	GPT-3 175B (0-shot)	Accuracy	91	# 13	Compare
Question Answering	CoQA	GPT-3 175B (few-shot, k=32)	Overall	85	# 1	Compare
Question Answering	DROP Test	GPT-3 175B (few-shot, k=32)	F1	36.5	# 15	Compare
Sentence Completion	HellaSwag	GPT-3 Large 760M (0-shot)	Accuracy	51.0	# 61	Compare
Sentence Completion	HellaSwag	GPT-3 (0-shot)	Accuracy	78.9	# 44	Compare
Sentence Completion	HellaSwag	GPT-3 175B (few-shot, k=32)	Accuracy	79.3	# 41	Compare
Language Modelling	LAMBADA	GPT-3 13B (Zero-Shot)	Accuracy	72.5	# 20	Compare
Language Modelling	LAMBADA	GPT-3 13B (Zero-Shot)	Perplexity	3.56	# 3	Compare
Language Modelling	LAMBADA	GPT-3 2.7B (Zero-Shot)	Accuracy	67.1	# 28	Compare
Language Modelling	LAMBADA	GPT-3 2.7B (Zero-Shot)	Perplexity	4.60	# 9	Compare
Language Modelling	LAMBADA	GPT-3 6.7B (Zero-Shot)	Accuracy	70.3	# 23	Compare
Language Modelling	LAMBADA	GPT-3 6.7B (Zero-Shot)	Perplexity	4.00	# 6	Compare
Language Modelling	LAMBADA	GPT-3 175B (Zero-Shot)	Accuracy	76.2	# 18	Compare
Language Modelling	LAMBADA	GPT-3 175B (Zero-Shot)	Perplexity	3.00	# 2	Compare
Language Modelling	LAMBADA	GPT-3 175B (Few-Shot)	Accuracy	86.4	# 3	Compare
Language Modelling	LAMBADA	GPT-3 175B (Few-Shot)	Perplexity	1.92	# 1	Compare
Multi-task Language Understanding	MMLU	GPT-3 175B (5-shot)	Average (%)	43.9	# 73	Compare
Multi-task Language Understanding	MMLU	GPT-3 2.7B (5-shot)	Average (%)	25.9	# 100	Compare
Multi-task Language Understanding	MMLU	GPT-3 6.7B (5-shot)	Average (%)	24.9	# 104	Compare
Multi-task Language Understanding	MMLU	GPT-3 13B (few-shot, k=32)	Average (%)	26	# 98	Compare
Question Answering	MultiRC	GPT-3 175B (Few-Shot)	F1	75.4	# 13	Compare
Question Answering	Natural Questions	GPT-3 175B (Few-Shot, k=64)	EM	29.9	# 27	Compare
Question Answering	OBQA	GPT-3 175B (zero-shot)	Accuracy	57.6	# 5	Compare
Question Answering	OpenBookQA	GPT-3 175B (few-shot, k=32)	Accuracy	65.4	# 25	Compare
Language Modelling	Penn Treebank (Word Level)	GPT-3 (Zero-Shot)	Test perplexity	20.5	# 1	Compare
Language Modelling	Penn Treebank (Word Level)	GPT-3 (Zero-Shot)	Params	175000M	# 1	Compare
Question Answering	PIQA	GPT-3 175B (0-shot)	Accuracy	81.0	# 24	Compare
Question Answering	PIQA	GPT-3 Large 760M (0-shot)	Accuracy	72.9	# 47	Compare
Question Answering	QuAC	GPT-3 175B (few-shot, k=32)	F1	44.3	# 2	Compare
Reading Comprehension	RACE	GPT-3 175B (zero-shot)	Accuracy (High)	45.5	# 13	Compare
Reading Comprehension	RACE	GPT-3 175B (0-shot)	Accuracy (Middle)	58.4	# 13	Compare
Question Answering	RACE	GPT-3 175B (Few-Shot)	RACE-h	46.8	# 5	Compare
Question Answering	RACE	GPT-3 175B (few-shot, k=32)	RACE-m	58.1	# 6	Compare
Common Sense Reasoning	ReCoRD	GPT-3 Large 760M (0-shot)	EM	82.1	# 15	Compare
Natural Language Inference	RTE	GPT-3 175B (few-shot, k=32)	Accuracy	69%	# 57	Compare
Question Answering	StoryCloze	GPT-3 Large 760M (zero-shot)	Accuracy	72.4	# 19	Compare
Question Answering	Story Cloze	GPT-3 175B (Few-Shot)	Accuracy	87.7	# 2	Compare
Question Answering	TriviaQA	GPT-3 175B (Few-Shot)	EM	71.2	# 23	Compare
Question Answering	WebQuestions	GPT-3-175B (One-Shot)	EM	25.3	# 13	Compare
Question Answering	WebQuestions	GPT-3-175B (Few-Shot)	EM	41.5	# 8	Compare
Question Answering	WebQuestions	GPT-3-175B (Zero-Shot)	EM	14.4	# 17	Compare
Coreference Resolution	Winograd Schema Challenge	GPT-3 175B (few-shot)	Accuracy	80.1	# 21	Compare
Common Sense Reasoning	WinoGrande	GPT-3 175B (0-shot)	Accuracy	70.2	# 36	Compare
Common Sense Reasoning	WinoGrande	GPT-3 Large 760M (0-shot)	Accuracy	57.4	# 55	Compare
Unsupervised Machine Translation	WMT2014 English-French	GPT-3 175B (Few-Shot)	BLEU	32.6	# 5	Compare
Unsupervised Machine Translation	WMT2014 French-English	GPT-3 175B (Few-Shot)	BLEU	39.2	# 1	Compare
Unsupervised Machine Translation	WMT2016 English-German	GPT-3 175B (Few-Shot)	BLEU	29.7	# 1	Compare
Unsupervised Machine Translation	WMT2016 English-Romanian	GPT-3 175B (Few-Shot)	BLEU	21	# 1	Compare
Unsupervised Machine Translation	WMT2016 German-English	GPT-3 175B (Few-Shot)	BLEU	40.6	# 1	Compare
Unsupervised Machine Translation	WMT2016 Romanian-English	GPT-3 175B (Few-Shot)	BLEU	39.5	# 1	Compare
Word Sense Disambiguation	Words in Context	GPT-3 175B (few-shot, k=32)	Accuracy	49.4	# 36	Compare

Methods

Add Remove

Adam • Attention Dropout • BPE • Cosine Annealing • Dense Connections • Dropout • Fixed Factorized Attention • GELU • GPT-3 • Layer Normalization • Linear Layer • Linear Warmup With Cosine Annealing • Multi-Head Attention • Residual Connection • Scaled Dot-Product Attention • Softmax • Strided Attention • Weight Decay

Edit Social Preview

Language Models are Few-Shot Learners

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove