TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Code Completion	SAFIM	deepseek-coder-33b-base	Algorithmic	60.78	# 1
Code Completion	SAFIM	deepseek-coder-33b-base	Average	69.01	# 1
Code Completion	SAFIM	deepseek-coder-33b-base	Control	71.10	# 1
Code Completion	SAFIM	deepseek-coder-33b-base	API	75.16	# 1
Code Completion	SAFIM	gpt-3.5-turbo-0301	Algorithmic	31.24	# 9
Code Completion	SAFIM	gpt-3.5-turbo-0301	Average	40.86	# 9
Code Completion	SAFIM	gpt-3.5-turbo-0301	Control	37.48	# 9
Code Completion	SAFIM	gpt-3.5-turbo-0301	API	53.87	# 8
Code Completion	SAFIM	deepseek-coder-6.7b-base	Algorithmic	54.74	# 2
Code Completion	SAFIM	deepseek-coder-6.7b-base	Average	63.40	# 2
Code Completion	SAFIM	deepseek-coder-6.7b-base	Control	65.79	# 2
Code Completion	SAFIM	deepseek-coder-6.7b-base	API	69.68	# 2
Code Completion	SAFIM	deepseek-coder-1.3b-base	Algorithmic	41.20	# 6
Code Completion	SAFIM	deepseek-coder-1.3b-base	Average	52.63	# 6
Code Completion	SAFIM	deepseek-coder-1.3b-base	Control	54.10	# 6
Code Completion	SAFIM	deepseek-coder-1.3b-base	API	62.58	# 4
Code Completion	SAFIM	starcoderbase	Algorithmic	44.11	# 3
Code Completion	SAFIM	starcoderbase	Average	55.54	# 3
Code Completion	SAFIM	starcoderbase	Control	54.46	# 5
Code Completion	SAFIM	starcoderbase	API	68.06	# 3
Code Completion	SAFIM	CodeLlama-34b-hf	Algorithmic	38.55	# 7
Code Completion	SAFIM	CodeLlama-34b-hf	Average	49.66	# 7
Code Completion	SAFIM	CodeLlama-34b-hf	Control	53.98	# 7
Code Completion	SAFIM	CodeLlama-34b-hf	API	56.45	# 7
Code Completion	SAFIM	CodeLlama-13b-hf	Algorithmic	41.41	# 5
Code Completion	SAFIM	CodeLlama-13b-hf	Average	52.78	# 5
Code Completion	SAFIM	CodeLlama-13b-hf	Control	57.25	# 3
Code Completion	SAFIM	CodeLlama-13b-hf	API	59.68	# 6
Code Completion	SAFIM	CodeLlama-7b-hf	Algorithmic	34.68	# 8
Code Completion	SAFIM	CodeLlama-7b-hf	Average	45.00	# 8
Code Completion	SAFIM	CodeLlama-7b-hf	Control	53.56	# 8
Code Completion	SAFIM	CodeLlama-7b-hf	API	46.77	# 10
Code Completion	SAFIM	incoder-6B	Algorithmic	25.16	# 11
Code Completion	SAFIM	incoder-6B	Average	33.79	# 10
Code Completion	SAFIM	incoder-6B	Control	28.16	# 13
Code Completion	SAFIM	incoder-6B	API	48.06	# 9
Code Completion	SAFIM	incoder-1B	Algorithmic	21.06	# 14
Code Completion	SAFIM	incoder-1B	Average	29.27	# 13
Code Completion	SAFIM	incoder-1B	Control	22.89	# 15
Code Completion	SAFIM	incoder-1B	API	43.87	# 11
Code Completion	SAFIM	codegen-16B-multi	Algorithmic	25.94	# 10
Code Completion	SAFIM	codegen-16B-multi	Average	30.99	# 11
Code Completion	SAFIM	codegen-16B-multi	Control	35.74	# 10
Code Completion	SAFIM	codegen-16B-multi	API	31.29	# 13
Code Completion	SAFIM	codegen-6B-multi	Algorithmic	23.60	# 12
Code Completion	SAFIM	codegen-6B-multi	Average	28.71	# 14
Code Completion	SAFIM	codegen-6B-multi	Control	34.80	# 11
Code Completion	SAFIM	codegen-6B-multi	API	27.74	# 14
Code Completion	SAFIM	codegen-2B-multi	Algorithmic	23.49	# 13
Code Completion	SAFIM	codegen-2B-multi	Average	29.55	# 12
Code Completion	SAFIM	codegen-2B-multi	Control	32.89	# 12
Code Completion	SAFIM	codegen-2B-multi	API	32.26	# 12
Code Completion	SAFIM	codegen-350M-multi	Algorithmic	16.30	# 15
Code Completion	SAFIM	codegen-350M-multi	Average	22.94	# 15
Code Completion	SAFIM	codegen-350M-multi	Control	26.06	# 14
Code Completion	SAFIM	codegen-350M-multi	API	26.45	# 15
Code Completion	SAFIM	gpt-4-1106-preview	Algorithmic	42.11	# 4
Code Completion	SAFIM	gpt-4-1106-preview	Average	53.28	# 4
Code Completion	SAFIM	gpt-4-1106-preview	Control	55.15	# 4
Code Completion	SAFIM	gpt-4-1106-preview	API	62.58	# 4

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/evaluation-of-llms-on-syntax-aware-code-fill/code-completion-on-safim)](https://paperswithcode.com/sota/code-completion-on-safim?p=evaluation-of-llms-on-syntax-aware-code-fill)`

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

7 Mar 2024 · Linyuan Gong, Sida Wang, Mostafa Elhoushi, Alvin Cheung ·

We introduce Syntax-Aware Fill-In-the-Middle (SAFIM), a new benchmark for evaluating Large Language Models (LLMs) on the code Fill-in-the-Middle (FIM) task. This benchmark focuses on syntax-aware completions of program structures such as code blocks and conditional expressions, and includes 17,720 examples from multiple programming languages, sourced from recent code submissions after April 2022 to minimize data contamination. SAFIM provides a robust framework with various prompt designs and novel syntax-aware post-processing techniques, facilitating accurate and fair comparisons across LLMs. Our comprehensive evaluation of 15 LLMs shows that FIM pretraining not only enhances FIM proficiency but also improves Left-to-Right (L2R) inference using LLMs. Our findings challenge conventional beliefs and suggest that pretraining methods and data quality have more impact than model size. SAFIM thus serves as a foundational platform for future research in effective pretraining strategies for code LLMs. The evaluation toolkit and dataset are available at https://github.com/gonglinyuan/safim, and the leaderboard is available at https://safimbenchmark.com.

PDF Abstract

Code

Add Remove Mark official

gonglinyuan/safim official

Tasks

Add Remove

Code Completion

Datasets

Introduced in the Paper:

SAFIM

Results from the Paper

Edit

Ranked #1 on Code Completion on SAFIM

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Code Completion	SAFIM	deepseek-coder-33b-base	Algorithmic	60.78	# 1	Compare
			Average	69.01	# 1	Compare
			Control	71.10	# 1	Compare
			API	75.16	# 1	Compare
Code Completion	SAFIM	gpt-3.5-turbo-0301	Algorithmic	31.24	# 9	Compare
			Average	40.86	# 9	Compare
			Control	37.48	# 9	Compare
			API	53.87	# 8	Compare
Code Completion	SAFIM	deepseek-coder-6.7b-base	Algorithmic	54.74	# 2	Compare
			Average	63.40	# 2	Compare
			Control	65.79	# 2	Compare
			API	69.68	# 2	Compare
Code Completion	SAFIM	deepseek-coder-1.3b-base	Algorithmic	41.20	# 6	Compare
			Average	52.63	# 6	Compare
			Control	54.10	# 6	Compare
			API	62.58	# 4	Compare
Code Completion	SAFIM	starcoderbase	Algorithmic	44.11	# 3	Compare
			Average	55.54	# 3	Compare
			Control	54.46	# 5	Compare
			API	68.06	# 3	Compare
Code Completion	SAFIM	CodeLlama-34b-hf	Algorithmic	38.55	# 7	Compare
			Average	49.66	# 7	Compare
			Control	53.98	# 7	Compare
			API	56.45	# 7	Compare
Code Completion	SAFIM	CodeLlama-13b-hf	Algorithmic	41.41	# 5	Compare
			Average	52.78	# 5	Compare
			Control	57.25	# 3	Compare
			API	59.68	# 6	Compare
Code Completion	SAFIM	CodeLlama-7b-hf	Algorithmic	34.68	# 8	Compare
			Average	45.00	# 8	Compare
			Control	53.56	# 8	Compare
			API	46.77	# 10	Compare
Code Completion	SAFIM	incoder-6B	Algorithmic	25.16	# 11	Compare
			Average	33.79	# 10	Compare
			Control	28.16	# 13	Compare
			API	48.06	# 9	Compare
Code Completion	SAFIM	incoder-1B	Algorithmic	21.06	# 14	Compare
			Average	29.27	# 13	Compare
			Control	22.89	# 15	Compare
			API	43.87	# 11	Compare
Code Completion	SAFIM	codegen-16B-multi	Algorithmic	25.94	# 10	Compare
			Average	30.99	# 11	Compare
			Control	35.74	# 10	Compare
			API	31.29	# 13	Compare
Code Completion	SAFIM	codegen-6B-multi	Algorithmic	23.60	# 12	Compare
			Average	28.71	# 14	Compare
			Control	34.80	# 11	Compare
			API	27.74	# 14	Compare
Code Completion	SAFIM	codegen-2B-multi	Algorithmic	23.49	# 13	Compare
			Average	29.55	# 12	Compare
			Control	32.89	# 12	Compare
			API	32.26	# 12	Compare
Code Completion	SAFIM	codegen-350M-multi	Algorithmic	16.30	# 15	Compare
			Average	22.94	# 15	Compare
			Control	26.06	# 14	Compare
			API	26.45	# 15	Compare
Code Completion	SAFIM	gpt-4-1106-preview	Algorithmic	42.11	# 4	Compare
			Average	53.28	# 4	Compare
			Control	55.15	# 4	Compare
			API	62.58	# 4	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Evaluation of LLMs on Syntax-Aware Code Fill-in-the-Middle Tasks

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove