TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Memorization	BIG-bench (Hindu Knowledge)	PaLM-540B (few-shot, k=5)	Accuracy	95.4	# 1
Memorization	BIG-bench (Hindu Knowledge)	PaLM-62B (few-shot, k=5)	Accuracy	77.7	# 3
Common Sense Reasoning	BIG-bench (Known Unknowns)	PaLM-540B (few-shot, k=5)	Accuracy	73.9	# 1
Auto Debugging	Big-bench Lite	PaLM 62B (few-shot, k=5)	Exact string match	38.2	# 1
Auto Debugging	Big-bench Lite	PaLM 540B (few-shot, k=5)	Exact string match	38.2	# 1
Auto Debugging	Big-bench Lite	PaLM 8B (few-shot, k=5)	Exact string match	14.7	# 3
Multiple Choice Question Answering (MCQA)	BIG-bench (Novel Concepts)	PaLM-62B (few-shot, k=5)	Accuracy	59.4	# 3
Multiple Choice Question Answering (MCQA)	BIG-bench (Novel Concepts)	PaLM-540B (few-shot, k=5)	Accuracy	71.9	# 1
Logical Reasoning	BIG-bench (StrategyQA)	PaLM-540B (few-shot, k=5)	Accuracy	73.9	# 1
Logical Reasoning	BIG-bench (StrategyQA)	PaLM-62B (few-shot, k=5)	Accuracy	65.4	# 3
Common Sense Reasoning	BIG-bench (Winowhy)	PaLM-540B (few-shot, k=5)	Accuracy	65.9	# 1
Common Sense Reasoning	BIG-bench (Winowhy)	PaLM-62B (few-shot, k=5)	Accuracy	61.0	# 3
Question Answering	BoolQ	PaLM 540B (fine-tuned)	Accuracy	92.2	# 2
Natural Language Inference	CommitmentBank	PaLM 540B (finetuned)	F1	100	# 1
Natural Language Inference	CommitmentBank	PaLM 540B (finetuned)	Accuracy	100	# 1
Question Answering	COPA	PaLM 540B (finetuned)	Accuracy	100	# 1
Extreme Summarization	GEM-XSum	T5-XXL	ROUGE-2	21.0	# 3
Extreme Summarization	GEM-XSum	PaLM (finetuning)-62B	ROUGE-2	18.5	# 4
Extreme Summarization	GEM-XSum	PaLM (finetuning)-62B	Parameters	62 B	# 3
Extreme Summarization	GEM-XSum	PaLM (finetuning)-540B	ROUGE-2	21.2	# 2
Extreme Summarization	GEM-XSum	PaLM (finetuning)-540B	Parameters	540 B	# 2
Sentence Completion	HellaSwag	PaLM-540B (Few-Shot)	Accuracy	83.8	# 25
Sentence Completion	HellaSwag	PaLM-540B (0-shot)	Accuracy	83.4	# 28
Sentence Completion	HellaSwag	PaLM-540B (1-shot)	Accuracy	83.6	# 26
Code Generation	HumanEval	PaLM 540B	Pass@1	26.2	# 86
Code Generation	HumanEval	PaLM 8B	Pass@1	3.6	# 126
Code Generation	HumanEval	PaLM 62B	Pass@1	15.9	# 107
Code Generation	HumanEval	PaLM-cont 62B	Pass@1	23.7	# 90
Language Modelling	LAMBADA	PaLM-540B (Zero-Shot)	Accuracy	77.9	# 15
Language Modelling	LAMBADA	PaLM-540B (Few-Shot)	Accuracy	89.7	# 1
Language Modelling	LAMBADA	PaLM-540B (One-Shot)	Accuracy	81.8	# 9
Code Generation	MBPP	PaLM 540B	Accuracy	36.8	# 72
Code Generation	MBPP	PaLM Coder 540B	Accuracy	47	# 57
Multi-task Language Understanding	MGSM	PaLM 540B	Average (%)	55.0	# 6
Multi-task Language Understanding	MMLU	PaLM	Average (%)	69.3	# 33
Question Answering	MultiRC	PaLM 540B (finetuned)	F1	90.1	# 1
Question Answering	MultiRC	PaLM 540B (finetuned)	EM	69.2	# 1
Question Answering	Natural Questions	PaLM-540B (Zero-Shot)	EM	21.2	# 36
Question Answering	Natural Questions	PaLM-540B (Few-Shot, k=64)	EM	39.6	# 19
Question Answering	Natural Questions	PaLM-540B (One-Shot)	EM	29.3	# 28
Question Answering	OBQA	PaLM 540B (zero-shot)	Accuracy	53.4	# 8
Question Answering	OBQA	PaLM 62B (zero-shot)	Accuracy	50.4	# 9
Reading Comprehension	RACE	PaLM 8B (zero-shot)	Accuracy (High)	42.3	# 14
Reading Comprehension	RACE	PaLM 8B (zero-shot)	Accuracy (Middle)	57.9	# 14
Reading Comprehension	RACE	PaLM 540B (zero-shot)	Accuracy (High)	49.1	# 8
Reading Comprehension	RACE	PaLM 540B (zero-shot)	Accuracy (Middle)	68.1	# 7
Reading Comprehension	RACE	PaLM 62B (zero-shot)	Accuracy (High)	47.5	# 10
Reading Comprehension	RACE	PaLM 62B (zero-shot)	Accuracy (Middle)	64.3	# 9
Common Sense Reasoning	ReCoRD	PaLM 540B (finetuned)	F1	94.6	# 2
Common Sense Reasoning	ReCoRD	PaLM 540B (finetuned)	EM	94.0	# 4
Natural Language Inference	RTE	PaLM 540B (fine-tuned)	Accuracy	95.7%	# 2
Natural Language Inference	RTE	PaLM 540B (0-shot)	Accuracy	72.9%	# 49
Natural Language Inference	RTE	PaLM 540B (1-shot)	Accuracy	78.7%	# 41
Natural Language Inference	RTE	PaLM 540B (5-shot)	Accuracy	79.6%	# 38
Question Answering	TriviaQA	PaLM-540B (Few-Shot)	EM	81.4	# 7
Question Answering	TriviaQA	PaLM-540B (One-Shot)	EM	81.4	# 7
Question Answering	TriviaQA	PaLM-540B (Zero-Shot)	EM	76.9	# 11
Cross-Lingual Question Answering	TyDiQA-GoldP	PaLM-540B (CoT)	EM	52.9	# 7
Question Answering	WebQuestions	PaLM-540B (Few-Shot)	EM	43.5	# 5
Question Answering	WebQuestions	PaLM-540B (One-Shot)	EM	22.6	# 14
Question Answering	WebQuestions	PaLM-540B (Zero-Shot)	EM	10.6	# 18
Coreference Resolution	Winograd Schema Challenge	PaLM 540B (5-shot)	Accuracy	89.5	# 11
Coreference Resolution	Winograd Schema Challenge	PaLM 540B (0-shot)	Accuracy	89.1	# 12
Coreference Resolution	Winograd Schema Challenge	PaLM 540B (fine-tuned)	Accuracy	100	# 1
Coreference Resolution	Winograd Schema Challenge	PaLM 540B (1-shot)	Accuracy	86.3	# 16
Common Sense Reasoning	WinoGrande	PaLM 62B (0-shot)	Accuracy	77.0	# 19
Common Sense Reasoning	WinoGrande	PaLM 540B (0-shot)	Accuracy	81.1	# 13
Common Sense Reasoning	WinoGrande	PaLM-cont 62B (0-shot)	Accuracy	77.0	# 19
Word Sense Disambiguation	Words in Context	PaLM 540B (finetuned)	Accuracy	78.8	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/memorization-on-big-bench-hindu-knowledge)](https://paperswithcode.com/sota/memorization-on-big-bench-hindu-knowledge?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/common-sense-reasoning-on-big-bench-known)](https://paperswithcode.com/sota/common-sense-reasoning-on-big-bench-known?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/auto-debugging-on-big-bench-lite)](https://paperswithcode.com/sota/auto-debugging-on-big-bench-lite?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/multiple-choice-question-answering-mcqa-on-31)](https://paperswithcode.com/sota/multiple-choice-question-answering-mcqa-on-31?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/logical-reasoning-on-big-bench-strategyqa)](https://paperswithcode.com/sota/logical-reasoning-on-big-bench-strategyqa?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/common-sense-reasoning-on-big-bench-winowhy)](https://paperswithcode.com/sota/common-sense-reasoning-on-big-bench-winowhy?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/natural-language-inference-on-commitmentbank)](https://paperswithcode.com/sota/natural-language-inference-on-commitmentbank?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/question-answering-on-copa)](https://paperswithcode.com/sota/question-answering-on-copa?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/language-modelling-on-lambada)](https://paperswithcode.com/sota/language-modelling-on-lambada?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/question-answering-on-multirc)](https://paperswithcode.com/sota/question-answering-on-multirc?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/coreference-resolution-on-winograd-schema)](https://paperswithcode.com/sota/coreference-resolution-on-winograd-schema?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/question-answering-on-boolq)](https://paperswithcode.com/sota/question-answering-on-boolq?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/extreme-summarization-on-gem-xsum)](https://paperswithcode.com/sota/extreme-summarization-on-gem-xsum?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/natural-language-inference-on-rte)](https://paperswithcode.com/sota/natural-language-inference-on-rte?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/word-sense-disambiguation-on-words-in-context)](https://paperswithcode.com/sota/word-sense-disambiguation-on-words-in-context?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/common-sense-reasoning-on-record)](https://paperswithcode.com/sota/common-sense-reasoning-on-record?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/question-answering-on-webquestions)](https://paperswithcode.com/sota/question-answering-on-webquestions?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/multi-task-language-understanding-on-mgsm)](https://paperswithcode.com/sota/multi-task-language-understanding-on-mgsm?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/reading-comprehension-on-race)](https://paperswithcode.com/sota/reading-comprehension-on-race?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/question-answering-on-triviaqa)](https://paperswithcode.com/sota/question-answering-on-triviaqa?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/cross-lingual-question-answering-on-tydiqa)](https://paperswithcode.com/sota/cross-lingual-question-answering-on-tydiqa?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/question-answering-on-obqa)](https://paperswithcode.com/sota/question-answering-on-obqa?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/common-sense-reasoning-on-winogrande)](https://paperswithcode.com/sota/common-sense-reasoning-on-winogrande?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/question-answering-on-natural-questions)](https://paperswithcode.com/sota/question-answering-on-natural-questions?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/sentence-completion-on-hellaswag)](https://paperswithcode.com/sota/sentence-completion-on-hellaswag?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/multi-task-language-understanding-on-mmlu)](https://paperswithcode.com/sota/multi-task-language-understanding-on-mmlu?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/code-generation-on-mbpp)](https://paperswithcode.com/sota/code-generation-on-mbpp?p=palm-scaling-language-modeling-with-pathways-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/palm-scaling-language-modeling-with-pathways-1/code-generation-on-humaneval)](https://paperswithcode.com/sota/code-generation-on-humaneval?p=palm-scaling-language-modeling-with-pathways-1)`

PaLM: Scaling Language Modeling with Pathways

Google Research 2022 · Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, Maarten Bosma, Gaurav Mishra, Adam Roberts, Paul Barham, Hyung Won Chung, Charles Sutton, Sebastian Gehrmann, Parker Schuh, Kensen Shi, Sasha Tsvyashchenko, Joshua Maynez, Abhishek Rao, Parker Barnes, Yi Tay, Noam Shazeer, Vinodkumar Prabhakaran, Emily Reif, Nan Du, Ben Hutchinson, Reiner Pope, James Bradbury, Jacob Austin, Michael Isard, Guy Gur-Ari, Pengcheng Yin, Toju Duke, Anselm Levskaya, Sanjay Ghemawat, Sunipa Dev, Henryk Michalewski, Xavier Garcia, Vedant Misra, Kevin Robinson, Liam Fedus, Denny Zhou, Daphne Ippolito, David Luan, Hyeontaek Lim, Barret Zoph, Alexander Spiridonov, Ryan Sepassi, David Dohan, Shivani Agrawal, Mark Omernick, Andrew M. Dai, Thanumalayan Sankaranarayana Pillai, Marie Pellat, Aitor Lewkowycz, Erica Moreira, Rewon Child, Oleksandr Polozov, Katherine Lee, Zongwei Zhou, Xuezhi Wang, Brennan Saeta, Mark Diaz, Orhan Firat, Michele Catasta, Jason Wei, Kathy Meier-Hellstern, Douglas Eck, Jeff Dean, Slav Petrov, Noah Fiedel ·

Large language models have been shown to achieve remarkable performance across a variety of natural language tasks using few-shot learning, which drastically reduces the number of task-specific training examples needed to adapt the model to a particular application. To further our understanding of the impact of scale on few-shot learning, we trained a 540-billion parameter, densely activated, Transformer language model, which we call Pathways Language Model PaLM. We trained PaLM on 6144 TPU v4 chips using Pathways, a new ML system which enables highly efficient training across multiple TPU Pods. We demonstrate continued benefits of scaling by achieving state-of-the-art few-shot learning results on hundreds of language understanding and generation benchmarks. On a number of these tasks, PaLM 540B achieves breakthrough performance, outperforming the finetuned state-of-the-art on a suite of multi-step reasoning tasks, and outperforming average human performance on the recently released BIG-bench benchmark. A significant number of BIG-bench tasks showed discontinuous improvements from model scale, meaning that performance steeply increased as we scaled to our largest model. PaLM also has strong capabilities in multilingual tasks and source code generation, which we demonstrate on a wide array of benchmarks. We additionally provide a comprehensive analysis on bias and toxicity, and study the extent of training data memorization with respect to model scale. Finally, we discuss the ethical considerations related to large language models and discuss potential mitigation strategies.

PDF Abstract Google Research 2022 PDF

Code

Add Remove Mark official

lucidrains/CoCa-pytorch

973

lucidrains/PaLM-pytorch

808

google/paxml

379

lucidrains/PaLM-jax

182

conceptofmind/PaLM-flax

Tasks

Add Remove

Auto Debugging

Code Generation

Common Sense Reasoning

Coreference Resolution

Cross-Lingual Question Answering

Few-Shot Learning

Hindu Knowledge

Known Unknowns

Language Modelling

Logical Reasoning

Logic Grid Puzzle

Math

Memorization

Multiple Choice Question Answering (MCQA)

Multi-task Language Understanding

Natural Language Inference

Novel Concepts

Question Answering

Reading Comprehension

Sentence Completion

StrategyQA

Winowhy

Datasets

GLUE

Natural Questions

MMLU

TriviaQA

HumanEval

HellaSwag

BoolQ

SuperGLUE

RACE

OpenBookQA

WinoGrande

WSC

COPA MBPP

BIG-bench

WebQuestions

LAMBADA

TyDiQA

MultiRC

ReCoRD RTE

GEM MGSM

TyDiQA-GoldP CommitmentBank

Results from the Paper

Add Remove

Ranked #1 on Coreference Resolution on Winograd Schema Challenge

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Memorization	BIG-bench (Hindu Knowledge)	PaLM-540B (few-shot, k=5)	Accuracy	95.4	# 1	Compare
Memorization	BIG-bench (Hindu Knowledge)	PaLM-62B (few-shot, k=5)	Accuracy	77.7	# 3	Compare
Common Sense Reasoning	BIG-bench (Known Unknowns)	PaLM-540B (few-shot, k=5)	Accuracy	73.9	# 1	Compare
Auto Debugging	Big-bench Lite	PaLM 62B (few-shot, k=5)	Exact string match	38.2	# 1	Compare
Auto Debugging	Big-bench Lite	PaLM 540B (few-shot, k=5)	Exact string match	38.2	# 1	Compare
Auto Debugging	Big-bench Lite	PaLM 8B (few-shot, k=5)	Exact string match	14.7	# 3	Compare
Multiple Choice Question Answering (MCQA)	BIG-bench (Novel Concepts)	PaLM-62B (few-shot, k=5)	Accuracy	59.4	# 3	Compare
Multiple Choice Question Answering (MCQA)	BIG-bench (Novel Concepts)	PaLM-540B (few-shot, k=5)	Accuracy	71.9	# 1	Compare
Logical Reasoning	BIG-bench (StrategyQA)	PaLM-540B (few-shot, k=5)	Accuracy	73.9	# 1	Compare
Logical Reasoning	BIG-bench (StrategyQA)	PaLM-62B (few-shot, k=5)	Accuracy	65.4	# 3	Compare
Common Sense Reasoning	BIG-bench (Winowhy)	PaLM-540B (few-shot, k=5)	Accuracy	65.9	# 1	Compare
Common Sense Reasoning	BIG-bench (Winowhy)	PaLM-62B (few-shot, k=5)	Accuracy	61.0	# 3	Compare
Question Answering	BoolQ	PaLM 540B (fine-tuned)	Accuracy	92.2	# 2	Compare
Natural Language Inference	CommitmentBank	PaLM 540B (finetuned)	F1	100	# 1	Compare
Natural Language Inference	CommitmentBank	PaLM 540B (finetuned)	Accuracy	100	# 1	Compare
Question Answering	COPA	PaLM 540B (finetuned)	Accuracy	100	# 1	Compare
Extreme Summarization	GEM-XSum	T5-XXL	ROUGE-2	21.0	# 3	Compare
Extreme Summarization	GEM-XSum	PaLM (finetuning)-62B	ROUGE-2	18.5	# 4	Compare
Extreme Summarization	GEM-XSum	PaLM (finetuning)-62B	Parameters	62 B	# 3	Compare
Extreme Summarization	GEM-XSum	PaLM (finetuning)-540B	ROUGE-2	21.2	# 2	Compare
Extreme Summarization	GEM-XSum	PaLM (finetuning)-540B	Parameters	540 B	# 2	Compare
Sentence Completion	HellaSwag	PaLM-540B (Few-Shot)	Accuracy	83.8	# 25	Compare
Sentence Completion	HellaSwag	PaLM-540B (0-shot)	Accuracy	83.4	# 28	Compare
Sentence Completion	HellaSwag	PaLM-540B (1-shot)	Accuracy	83.6	# 26	Compare
Code Generation	HumanEval	PaLM 540B	Pass@1	26.2	# 86	Compare
Code Generation	HumanEval	PaLM 8B	Pass@1	3.6	# 126	Compare
Code Generation	HumanEval	PaLM 62B	Pass@1	15.9	# 107	Compare
Code Generation	HumanEval	PaLM-cont 62B	Pass@1	23.7	# 90	Compare
Language Modelling	LAMBADA	PaLM-540B (Zero-Shot)	Accuracy	77.9	# 15	Compare
Language Modelling	LAMBADA	PaLM-540B (Few-Shot)	Accuracy	89.7	# 1	Compare
Language Modelling	LAMBADA	PaLM-540B (One-Shot)	Accuracy	81.8	# 9	Compare
Code Generation	MBPP	PaLM 540B	Accuracy	36.8	# 72	Compare
Code Generation	MBPP	PaLM Coder 540B	Accuracy	47	# 57	Compare
Multi-task Language Understanding	MGSM	PaLM 540B	Average (%)	55.0	# 6	Compare
Multi-task Language Understanding	MMLU	PaLM	Average (%)	69.3	# 33	Compare
Question Answering	MultiRC	PaLM 540B (finetuned)	F1	90.1	# 1	Compare
Question Answering	MultiRC	PaLM 540B (finetuned)	EM	69.2	# 1	Compare
Question Answering	Natural Questions	PaLM-540B (Zero-Shot)	EM	21.2	# 36	Compare
Question Answering	Natural Questions	PaLM-540B (Few-Shot, k=64)	EM	39.6	# 19	Compare
Question Answering	Natural Questions	PaLM-540B (One-Shot)	EM	29.3	# 28	Compare
Question Answering	OBQA	PaLM 540B (zero-shot)	Accuracy	53.4	# 8	Compare
Question Answering	OBQA	PaLM 62B (zero-shot)	Accuracy	50.4	# 9	Compare
Reading Comprehension	RACE	PaLM 8B (zero-shot)	Accuracy (High)	42.3	# 14	Compare
Reading Comprehension	RACE	PaLM 8B (zero-shot)	Accuracy (Middle)	57.9	# 14	Compare
Reading Comprehension	RACE	PaLM 540B (zero-shot)	Accuracy (High)	49.1	# 8	Compare
Reading Comprehension	RACE	PaLM 540B (zero-shot)	Accuracy (Middle)	68.1	# 7	Compare
Reading Comprehension	RACE	PaLM 62B (zero-shot)	Accuracy (High)	47.5	# 10	Compare
Reading Comprehension	RACE	PaLM 62B (zero-shot)	Accuracy (Middle)	64.3	# 9	Compare
Common Sense Reasoning	ReCoRD	PaLM 540B (finetuned)	F1	94.6	# 2	Compare
Common Sense Reasoning	ReCoRD	PaLM 540B (finetuned)	EM	94.0	# 4	Compare
Natural Language Inference	RTE	PaLM 540B (fine-tuned)	Accuracy	95.7%	# 2	Compare
Natural Language Inference	RTE	PaLM 540B (0-shot)	Accuracy	72.9%	# 49	Compare
Natural Language Inference	RTE	PaLM 540B (1-shot)	Accuracy	78.7%	# 41	Compare
Natural Language Inference	RTE	PaLM 540B (5-shot)	Accuracy	79.6%	# 38	Compare
Question Answering	TriviaQA	PaLM-540B (Few-Shot)	EM	81.4	# 7	Compare
Question Answering	TriviaQA	PaLM-540B (One-Shot)	EM	81.4	# 7	Compare
Question Answering	TriviaQA	PaLM-540B (Zero-Shot)	EM	76.9	# 11	Compare
Cross-Lingual Question Answering	TyDiQA-GoldP	PaLM-540B (CoT)	EM	52.9	# 7	Compare
Question Answering	WebQuestions	PaLM-540B (Few-Shot)	EM	43.5	# 5	Compare
Question Answering	WebQuestions	PaLM-540B (One-Shot)	EM	22.6	# 14	Compare
Question Answering	WebQuestions	PaLM-540B (Zero-Shot)	EM	10.6	# 18	Compare
Coreference Resolution	Winograd Schema Challenge	PaLM 540B (5-shot)	Accuracy	89.5	# 11	Compare
Coreference Resolution	Winograd Schema Challenge	PaLM 540B (0-shot)	Accuracy	89.1	# 12	Compare
Coreference Resolution	Winograd Schema Challenge	PaLM 540B (fine-tuned)	Accuracy	100	# 1	Compare
Coreference Resolution	Winograd Schema Challenge	PaLM 540B (1-shot)	Accuracy	86.3	# 16	Compare
Common Sense Reasoning	WinoGrande	PaLM 62B (0-shot)	Accuracy	77.0	# 19	Compare
Common Sense Reasoning	WinoGrande	PaLM 540B (0-shot)	Accuracy	81.1	# 13	Compare
Common Sense Reasoning	WinoGrande	PaLM-cont 62B (0-shot)	Accuracy	77.0	# 19	Compare
Word Sense Disambiguation	Words in Context	PaLM 540B (finetuned)	Accuracy	78.8	# 2	Compare

Methods

Add Remove

Adafactor • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Multi-Query Attention • PaLM • Parallel Layers • Residual Connection • Rotary Embeddings • Scaled Dot-Product Attention • SentencePiece • Softmax • SwiGLU • Transformer

Edit Social Preview

PaLM: Scaling Language Modeling with Pathways

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove