TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Code Generation	HumanEval	code-davinci-002 175B (Reviewer)	Pass@1	61.2	# 15
Code Generation	HumanEval	code-davinci-002 175B (Coder-Reviewer)	Pass@1	56.7	# 18
Code Generation	MBPP	InCoder 6.7B + MBR-Exec	Accuracy	26.7	# 78
Code Generation	MBPP	code-cushman-001 12B + MBR-Exec	Accuracy	48.3	# 52
Code Generation	MBPP	code-davinci-002 175B + MBR-Exec	Accuracy	63	# 28
Code Generation	MBPP	code-davinci-002 175B + Coder-Reviewer	Accuracy	66.4	# 23
Code Generation	MBPP	code-davinci-002 175B + Reviewer	Accuracy	66.9	# 22
Code Generation	MBPP	CodeGen 16B + Coder-Reviewer	Accuracy	46.2	# 59
Code Generation	MBPP	InCoder 6.7B + Coder-Reviewer	Accuracy	26.1	# 79
Code Generation	MBPP	CodeGen 16B + Reviewer	Accuracy	44.1	# 64
Code Generation	MBPP	InCoder 6.7B + Reviewer	Accuracy	24.4	# 80
Code Generation	MBPP	CodeGen 16B + MBR-Exec	Accuracy	47.3	# 55

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/coder-reviewer-reranking-for-code-generation/code-generation-on-humaneval)](https://paperswithcode.com/sota/code-generation-on-humaneval?p=coder-reviewer-reranking-for-code-generation)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/coder-reviewer-reranking-for-code-generation/code-generation-on-mbpp)](https://paperswithcode.com/sota/code-generation-on-mbpp?p=coder-reviewer-reranking-for-code-generation)`

Coder Reviewer Reranking for Code Generation

29 Nov 2022 · Tianyi Zhang, Tao Yu, Tatsunori B. Hashimoto, Mike Lewis, Wen-tau Yih, Daniel Fried, Sida I. Wang ·

Sampling diverse programs from a code language model and reranking with model likelihood is a popular method for code generation but it is prone to preferring degenerate solutions. Inspired by collaborative programming, we propose Coder-Reviewer reranking. We augment Coder language models from past work, which generate programs given language instructions, with Reviewer models, which evaluate the likelihood of the instruction given the generated programs. We perform an extensive study across six datasets with eight models from three model families. Experimental results show that Coder-Reviewer reranking leads to consistent and significant improvement (up to 17% absolute accuracy gain) over reranking with the Coder model only. When combined with executability filtering, Coder-Reviewer reranking can often outperform the minimum Bayes risk method. Coder-Reviewer reranking is easy to implement by prompting, can generalize to different programming languages, and works well with off-the-shelf hyperparameters.

PDF Abstract

Code

Add Remove Mark official

facebookresearch/coder_reviewer_rer… official

Tasks

Add Remove

Code Generation

Language Modelling

Datasets

HumanEval MBPP

Results from the Paper

Edit

Ranked #15 on Code Generation on HumanEval

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Code Generation	HumanEval	code-davinci-002 175B (Reviewer)	Pass@1	61.2	# 15	Compare
Code Generation	HumanEval	code-davinci-002 175B (Coder-Reviewer)	Pass@1	56.7	# 18	Compare
Code Generation	MBPP	InCoder 6.7B + MBR-Exec	Accuracy	26.7	# 78	Compare
Code Generation	MBPP	code-cushman-001 12B + MBR-Exec	Accuracy	48.3	# 52	Compare
Code Generation	MBPP	code-davinci-002 175B + MBR-Exec	Accuracy	63	# 28	Compare
Code Generation	MBPP	code-davinci-002 175B + Coder-Reviewer	Accuracy	66.4	# 23	Compare
Code Generation	MBPP	code-davinci-002 175B + Reviewer	Accuracy	66.9	# 22	Compare
Code Generation	MBPP	CodeGen 16B + Coder-Reviewer	Accuracy	46.2	# 59	Compare
Code Generation	MBPP	InCoder 6.7B + Coder-Reviewer	Accuracy	26.1	# 79	Compare
Code Generation	MBPP	CodeGen 16B + Reviewer	Accuracy	44.1	# 64	Compare
Code Generation	MBPP	InCoder 6.7B + Reviewer	Accuracy	24.4	# 80	Compare
Code Generation	MBPP	CodeGen 16B + MBR-Exec	Accuracy	47.3	# 55	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Coder Reviewer Reranking for Code Generation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove