TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Code Generation	APPS	Codex 12B (Raw)	Introductory Pass@1	4.14%	# 8
Code Generation	APPS	Codex 12B (Raw)	Interview Pass@1	0.14%	# 11
Code Generation	APPS	Codex 12B (Raw)	Competition Pass@1	0.02%	# 8
Code Generation	APPS	Codex 12B (Raw)	Introductory Pass@1000	25.02%	# 4
Code Generation	APPS	Codex 12B (Raw)	Interview Pass@1000	3.70%	# 6
Code Generation	APPS	Codex 12B (Raw)	Competition Pass@1000	3.23%	# 6
Code Generation	APPS	Codex 12B (Raw)	Competition Pass@5	0.09%	# 4
Code Generation	APPS	Codex 12B (Raw)	Interview Pass@5	0.51%	# 7
Code Generation	APPS	Codex 12B (Raw)	Introductory Pass@5	9.65%	# 3
Code Generation	APPS	Codex 12B (Raw)	Competition Pass@any	3.32%	# 7
Code Generation	APPS	Codex 12B (Raw)	Interview Pass@any	3.70%	# 7
Code Generation	APPS	Codex 12B (Raw)	Introductory Pass@any	25.02%	# 5
Multi-task Language Understanding	BBH-alg	code-davinci-002 175B (CoT)	Average (%)	73.9	# 1
Multi-task Language Understanding	BBH-nlp	code-davinci-002 175B (CoT)	Average (%)	73.5	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/evaluating-large-language-models-trained-on/multi-task-language-understanding-on-bbh-alg)](https://paperswithcode.com/sota/multi-task-language-understanding-on-bbh-alg?p=evaluating-large-language-models-trained-on)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/evaluating-large-language-models-trained-on/multi-task-language-understanding-on-bbh-nlp)](https://paperswithcode.com/sota/multi-task-language-understanding-on-bbh-nlp?p=evaluating-large-language-models-trained-on)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/evaluating-large-language-models-trained-on/code-generation-on-apps)](https://paperswithcode.com/sota/code-generation-on-apps?p=evaluating-large-language-models-trained-on)`

Evaluating Large Language Models Trained on Code

7 Jul 2021 · Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde de Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, Alex Ray, Raul Puri, Gretchen Krueger, Michael Petrov, Heidy Khlaaf, Girish Sastry, Pamela Mishkin, Brooke Chan, Scott Gray, Nick Ryder, Mikhail Pavlov, Alethea Power, Lukasz Kaiser, Mohammad Bavarian, Clemens Winter, Philippe Tillet, Felipe Petroski Such, Dave Cummings, Matthias Plappert, Fotios Chantzis, Elizabeth Barnes, Ariel Herbert-Voss, William Hebgen Guss, Alex Nichol, Alex Paino, Nikolas Tezak, Jie Tang, Igor Babuschkin, Suchir Balaji, Shantanu Jain, William Saunders, Christopher Hesse, Andrew N. Carr, Jan Leike, Josh Achiam, Vedant Misra, Evan Morikawa, Alec Radford, Matthew Knight, Miles Brundage, Mira Murati, Katie Mayer, Peter Welinder, Bob McGrew, Dario Amodei, Sam McCandlish, Ilya Sutskever, Wojciech Zaremba ·

We introduce Codex, a GPT language model fine-tuned on publicly available code from GitHub, and study its Python code-writing capabilities. A distinct production version of Codex powers GitHub Copilot. On HumanEval, a new evaluation set we release to measure functional correctness for synthesizing programs from docstrings, our model solves 28.8% of the problems, while GPT-3 solves 0% and GPT-J solves 11.4%. Furthermore, we find that repeated sampling from the model is a surprisingly effective strategy for producing working solutions to difficult prompts. Using this method, we solve 70.2% of our problems with 100 samples per problem. Careful investigation of our model reveals its limitations, including difficulty with docstrings describing long chains of operations and with binding operations to variables. Finally, we discuss the potential broader impacts of deploying powerful code generation technologies, covering safety, security, and economics.

PDF Abstract

Code

Add Remove Mark official

openai/human-eval official

1,949

THUDM/CodeGeeX

7,748

ncoop57/gpt-code-clippy

3,290

codedotal/gpt-code-clippy

3,290

vhellendoorn/code-lms

1,714

See all 13 implementations

Tasks

Add Remove

Code Generation

Language Modelling

Multi-task Language Understanding

Datasets

Introduced in the Paper:

HumanEval

Used in the Paper:

BIG-bench BBH

APPS

Results from the Paper

Edit

Ranked #1 on Multi-task Language Understanding on BBH-alg

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Code Generation	APPS	Codex 12B (Raw)	Introductory Pass@1	4.14%	# 8	Compare
			Interview Pass@1	0.14%	# 11	Compare
			Competition Pass@1	0.02%	# 8	Compare
			Introductory Pass@1000	25.02%	# 4	Compare
			Interview Pass@1000	3.70%	# 6	Compare
			Competition Pass@1000	3.23%	# 6	Compare
			Competition Pass@5	0.09%	# 4	Compare
			Interview Pass@5	0.51%	# 7	Compare
			Introductory Pass@5	9.65%	# 3	Compare
			Competition Pass@any	3.32%	# 7	Compare
			Interview Pass@any	3.70%	# 7	Compare
			Introductory Pass@any	25.02%	# 5	Compare
Multi-task Language Understanding	BBH-alg	code-davinci-002 175B (CoT)	Average (%)	73.9	# 1	Compare
Multi-task Language Understanding	BBH-nlp	code-davinci-002 175B (CoT)	Average (%)	73.5	# 3	Compare

Methods

Add Remove

Adam • Attention Dropout • BPE • Cosine Annealing • Dense Connections • Discriminative Fine-Tuning • Dropout • Fixed Factorized Attention • GELU • GPT • GPT-3 • Layer Normalization • Linear Layer • Linear Warmup With Cosine Annealing • Multi-Head Attention • Residual Connection • Scaled Dot-Product Attention • Softmax • Strided Attention • Weight Decay

Edit Social Preview

Evaluating Large Language Models Trained on Code

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove