TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Common Sense Reasoning	ARC (Challenge)	OPT-175B	Accuracy	43.94	# 38
Common Sense Reasoning	ARC (Challenge)	SparseGPT (175B, 2:4 Sparsity)	Accuracy	38.99	# 42
Common Sense Reasoning	ARC (Challenge)	SparseGPT (175B, 4:8 Sparsity)	Accuracy	39.85	# 41
Common Sense Reasoning	ARC (Challenge)	SparseGPT (175B, 50% Sparsity)	Accuracy	41.3	# 40
Common Sense Reasoning	ARC (Challenge)	OPT-175B (50% Sparsity)	Accuracy	25.6	# 48
Common Sense Reasoning	ARC (Easy)	OPT-175B	Accuracy	71.04	# 27
Common Sense Reasoning	ARC (Easy)	SparseGPT (175B, 4:8 Sparsity)	Accuracy	68.35	# 35
Common Sense Reasoning	ARC (Easy)	OPT 175B (50% Sparsity)	Accuracy	28.03	# 43
Common Sense Reasoning	ARC (Easy)	SparseGPT 175B (2:4 sparsity)	Accuracy	67.08	# 37
Common Sense Reasoning	ARC (Easy)	SparseGPT 175B (50% sparsity)	Accuracy	69.65	# 32
Language Modelling	LAMBADA	OPT-175B	Accuracy	75.59	# 19
Language Modelling	LAMBADA	OPT-175B (50% Sparsity)	Accuracy	0.02	# 33
Language Modelling	LAMBADA	SparseGPT (175B, 50% Sparsity)	Accuracy	76.51	# 17
Language Modelling	LAMBADA	SparseGPT (175B, 4:8 Sparsity)	Accuracy	78.77	# 14
Language Modelling	LAMBADA	SparseGPT (175B, 2:4 Sparsity)	Accuracy	79.47	# 13
Question Answering	PIQA	SparseGPT 175B (2:4 Sparsity)	Accuracy	79.54	# 30
Question Answering	PIQA	SparseGPT 175B (4:8 Sparsity)	Accuracy	79.54	# 30
Question Answering	PIQA	SparseGPT 175B (50% Sparsity)	Accuracy	80.63	# 25
Question Answering	PIQA	OPT-175B (50% Sparsity)	Accuracy	54.73	# 61
Question Answering	PIQA	OPT-175B	Accuracy	81.07	# 23
Question Answering	StoryCloze	OPT-175B (50% Sparsity)	Accuracy	47.10	# 23
Question Answering	StoryCloze	SparseGPT (175B, 50% Sparsity)	Accuracy	78.87	# 11
Question Answering	StoryCloze	SparseGPT (175B, 4:8 Sparsity)	Accuracy	77.02	# 14
Question Answering	StoryCloze	SparseGPT (175B, 2:4 Sparsity)	Accuracy	76.19	# 16
Question Answering	StoryCloze	OPT-175B	Accuracy	79.82	# 10
Language Modelling	WikiText-2	OPT-175B	Test perplexity	8.34	# 2
Language Modelling	WikiText-2	SparseGPT (175B, 50% Sparsity)	Test perplexity	8.21	# 1
Language Modelling	WikiText-2	OPT-175B (50% Sparsity)	Test perplexity	234.77	# 38
Language Modelling	WikiText-2	SparseGPT (175B, 4:8 Sparsity)	Test perplexity	8.45	# 3
Language Modelling	WikiText-2	SparseGPT (175B, 2:4 Sparsity)	Test perplexity	8.73	# 4

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massive-language-models-can-be-accurately/language-modelling-on-wikitext-2)](https://paperswithcode.com/sota/language-modelling-on-wikitext-2?p=massive-language-models-can-be-accurately)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massive-language-models-can-be-accurately/question-answering-on-storycloze)](https://paperswithcode.com/sota/question-answering-on-storycloze?p=massive-language-models-can-be-accurately)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massive-language-models-can-be-accurately/language-modelling-on-lambada)](https://paperswithcode.com/sota/language-modelling-on-lambada?p=massive-language-models-can-be-accurately)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massive-language-models-can-be-accurately/question-answering-on-piqa)](https://paperswithcode.com/sota/question-answering-on-piqa?p=massive-language-models-can-be-accurately)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massive-language-models-can-be-accurately/common-sense-reasoning-on-arc-easy)](https://paperswithcode.com/sota/common-sense-reasoning-on-arc-easy?p=massive-language-models-can-be-accurately)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/massive-language-models-can-be-accurately/common-sense-reasoning-on-arc-challenge)](https://paperswithcode.com/sota/common-sense-reasoning-on-arc-challenge?p=massive-language-models-can-be-accurately)`

SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

2 Jan 2023 · Elias Frantar, Dan Alistarh ·

We show for the first time that large-scale generative pretrained transformer (GPT) family models can be pruned to at least 50% sparsity in one-shot, without any retraining, at minimal loss of accuracy. This is achieved via a new pruning method called SparseGPT, specifically designed to work efficiently and accurately on massive GPT-family models. We can execute SparseGPT on the largest available open-source models, OPT-175B and BLOOM-176B, in under 4.5 hours, and can reach 60% unstructured sparsity with negligible increase in perplexity: remarkably, more than 100 billion weights from these models can be ignored at inference time. SparseGPT generalizes to semi-structured (2:4 and 4:8) patterns, and is compatible with weight quantization approaches. The code is available at: https://github.com/IST-DASLab/sparsegpt.

PDF Abstract

Code

Add Remove Mark official

ist-daslab/sparsegpt official

615

eth-easl/deltazip

baithebest/adagp

Tasks

Add Remove

Common Sense Reasoning

Language Modelling

Quantization

Question Answering

Datasets

WikiText-2

PIQA

LAMBADA

ARC (AI2 Reasoning Challenge) StoryCloze

Results from the Paper

Edit

Ranked #1 on Language Modelling on WikiText-2 (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Common Sense Reasoning	ARC (Challenge)	OPT-175B	Accuracy	43.94	# 38	Compare
Common Sense Reasoning	ARC (Challenge)	SparseGPT (175B, 2:4 Sparsity)	Accuracy	38.99	# 42	Compare
Common Sense Reasoning	ARC (Challenge)	SparseGPT (175B, 4:8 Sparsity)	Accuracy	39.85	# 41	Compare
Common Sense Reasoning	ARC (Challenge)	SparseGPT (175B, 50% Sparsity)	Accuracy	41.3	# 40	Compare
Common Sense Reasoning	ARC (Challenge)	OPT-175B (50% Sparsity)	Accuracy	25.6	# 48	Compare
Common Sense Reasoning	ARC (Easy)	OPT-175B	Accuracy	71.04	# 27	Compare
Common Sense Reasoning	ARC (Easy)	SparseGPT (175B, 4:8 Sparsity)	Accuracy	68.35	# 35	Compare
Common Sense Reasoning	ARC (Easy)	OPT 175B (50% Sparsity)	Accuracy	28.03	# 43	Compare
Common Sense Reasoning	ARC (Easy)	SparseGPT 175B (2:4 sparsity)	Accuracy	67.08	# 37	Compare
Common Sense Reasoning	ARC (Easy)	SparseGPT 175B (50% sparsity)	Accuracy	69.65	# 32	Compare
Language Modelling	LAMBADA	OPT-175B	Accuracy	75.59	# 19	Compare
Language Modelling	LAMBADA	OPT-175B (50% Sparsity)	Accuracy	0.02	# 33	Compare
Language Modelling	LAMBADA	SparseGPT (175B, 50% Sparsity)	Accuracy	76.51	# 17	Compare
Language Modelling	LAMBADA	SparseGPT (175B, 4:8 Sparsity)	Accuracy	78.77	# 14	Compare
Language Modelling	LAMBADA	SparseGPT (175B, 2:4 Sparsity)	Accuracy	79.47	# 13	Compare
Question Answering	PIQA	SparseGPT 175B (2:4 Sparsity)	Accuracy	79.54	# 30	Compare
Question Answering	PIQA	SparseGPT 175B (4:8 Sparsity)	Accuracy	79.54	# 30	Compare
Question Answering	PIQA	SparseGPT 175B (50% Sparsity)	Accuracy	80.63	# 25	Compare
Question Answering	PIQA	OPT-175B (50% Sparsity)	Accuracy	54.73	# 61	Compare
Question Answering	PIQA	OPT-175B	Accuracy	81.07	# 23	Compare
Question Answering	StoryCloze	OPT-175B (50% Sparsity)	Accuracy	47.10	# 23	Compare
Question Answering	StoryCloze	SparseGPT (175B, 50% Sparsity)	Accuracy	78.87	# 11	Compare
Question Answering	StoryCloze	SparseGPT (175B, 4:8 Sparsity)	Accuracy	77.02	# 14	Compare
Question Answering	StoryCloze	SparseGPT (175B, 2:4 Sparsity)	Accuracy	76.19	# 16	Compare
Question Answering	StoryCloze	OPT-175B	Accuracy	79.82	# 10	Compare
Language Modelling	WikiText-2	OPT-175B	Test perplexity	8.34	# 2	Compare
Language Modelling	WikiText-2	SparseGPT (175B, 50% Sparsity)	Test perplexity	8.21	# 1	Compare
Language Modelling	WikiText-2	OPT-175B (50% Sparsity)	Test perplexity	234.77	# 38	Compare
Language Modelling	WikiText-2	SparseGPT (175B, 4:8 Sparsity)	Test perplexity	8.45	# 3	Compare
Language Modelling	WikiText-2	SparseGPT (175B, 2:4 Sparsity)	Test perplexity	8.73	# 4	Compare

Methods

Add Remove

Pruning

Edit Social Preview

SparseGPT: Massive Language Models Can Be Accurately Pruned in One-Shot

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove