TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Classification	CIFAR-10	DeiT-B	Percentage correct	99.1	# 12
Image Classification	CIFAR-10	DeiT-B	PARAMS	86M	# 234
Image Classification	CIFAR-100	DeiT-B	Percentage correct	90.8	# 23
Image Classification	CIFAR-100	DeiT-B	PARAMS	86M	# 198
Image Classification	Flowers-102	DeiT-B	Accuracy	98.8%	# 17
Image Classification	Flowers-102	DeiT-B	PARAMS	86M	# 50
Image Classification	ImageNet	DeiT-B	Top 1 Accuracy	82.6%	# 474
Image Classification	ImageNet	DeiT-B	Number of params	22M	# 557
Image Classification	ImageNet	DeiT-B	Top 1 Accuracy	84.2%	# 313
Image Classification	ImageNet	DeiT-B	Number of params	86M	# 814
Image Classification	ImageNet	DeiT-B 384	Top 1 Accuracy	85.2%	# 239
Image Classification	ImageNet	DeiT-B 384	Number of params	87M	# 822
Image Classification	ImageNet	DeiT-B 384	Hardware Burden	None	# 1
Image Classification	ImageNet	DeiT-B 384	Operations per network pass	None	# 1
Image Classification	ImageNet	DeiT-B	Top 1 Accuracy	76.6%	# 839
Image Classification	ImageNet	DeiT-B	Number of params	5M	# 403
Efficient ViTs	ImageNet-1K (with DeiT-S)	Base (DeiT-S)	Top 1 Accuracy	79.8	# 4
Efficient ViTs	ImageNet-1K (with DeiT-S)	Base (DeiT-S)	GFLOPs	4.6	# 41
Efficient ViTs	ImageNet-1K (with DeiT-T)	Base (DeiT-T)	Top 1 Accuracy	72.2	# 6
Efficient ViTs	ImageNet-1K (with DeiT-T)	Base (DeiT-T)	GFLOPs	1.2	# 22
Image Classification	ImageNet ReaL	DeiT-Ti	Accuracy	82.1%	# 49
Image Classification	ImageNet ReaL	DeiT-Ti	Params	5M	# 37
Image Classification	ImageNet ReaL	DeiT-B	Accuracy	88.7%	# 26
Image Classification	ImageNet ReaL	DeiT-B	Params	86M	# 43
Image Classification	ImageNet ReaL	DeiT-B-384	Accuracy	89.3%	# 24
Image Classification	ImageNet ReaL	DeiT-B-384	Params	86M	# 43
Image Classification	ImageNet ReaL	DeiT-S	Accuracy	86.8%	# 36
Image Classification	ImageNet ReaL	DeiT-S	Params	22M	# 39
Image Classification	iNaturalist 2018	DeiT-B	Top-1 Accuracy	79.5%	# 15
Fine-Grained Image Classification	Oxford 102 Flowers	DeiT-B	Accuracy	98.8%	# 11
Fine-Grained Image Classification	Oxford 102 Flowers	DeiT-B	PARAMS	86M	# 26
Document Layout Analysis	PubLayNet val	DeiT-B	Text	0.934	# 8
Document Layout Analysis	PubLayNet val	DeiT-B	Title	0.874	# 8
Document Layout Analysis	PubLayNet val	DeiT-B	List	0.921	# 10
Document Layout Analysis	PubLayNet val	DeiT-B	Table	0.972	# 11
Document Layout Analysis	PubLayNet val	DeiT-B	Figure	0.957	# 9
Document Layout Analysis	PubLayNet val	DeiT-B	Overall	0.932	# 9
Document Image Classification	RVL-CDIP	DeiT-B	Accuracy	90.32%	# 29
Document Image Classification	RVL-CDIP	DeiT-B	Parameters	87M	# 15
Fine-Grained Image Classification	Stanford Cars	DeiT-B	Accuracy	93.3%	# 56
Fine-Grained Image Classification	Stanford Cars	DeiT-B	PARAMS	86M	# 73

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/efficient-vits-on-imagenet-1k-with-deit-s)](https://paperswithcode.com/sota/efficient-vits-on-imagenet-1k-with-deit-s?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/efficient-vits-on-imagenet-1k-with-deit-t)](https://paperswithcode.com/sota/efficient-vits-on-imagenet-1k-with-deit-t?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/document-layout-analysis-on-publaynet-val)](https://paperswithcode.com/sota/document-layout-analysis-on-publaynet-val?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/fine-grained-image-classification-on-oxford)](https://paperswithcode.com/sota/fine-grained-image-classification-on-oxford?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/image-classification-on-cifar-10)](https://paperswithcode.com/sota/image-classification-on-cifar-10?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/image-classification-on-inaturalist-2018)](https://paperswithcode.com/sota/image-classification-on-inaturalist-2018?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/image-classification-on-flowers-102)](https://paperswithcode.com/sota/image-classification-on-flowers-102?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/image-classification-on-cifar-100)](https://paperswithcode.com/sota/image-classification-on-cifar-100?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/image-classification-on-imagenet-real)](https://paperswithcode.com/sota/image-classification-on-imagenet-real?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/document-image-classification-on-rvl-cdip)](https://paperswithcode.com/sota/document-image-classification-on-rvl-cdip?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/fine-grained-image-classification-on-stanford)](https://paperswithcode.com/sota/fine-grained-image-classification-on-stanford?p=training-data-efficient-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/training-data-efficient-image-transformers/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=training-data-efficient-image-transformers)`

Training data-efficient image transformers & distillation through attention

23 Dec 2020 · Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, Hervé Jégou ·

Recently, neural networks purely based on attention were shown to address image understanding tasks such as image classification. However, these visual transformers are pre-trained with hundreds of millions of images using an expensive infrastructure, thereby limiting their adoption. In this work, we produce a competitive convolution-free transformer by training on Imagenet only. We train them on a single computer in less than 3 days. Our reference vision transformer (86M parameters) achieves top-1 accuracy of 83.1% (single-crop evaluation) on ImageNet with no external data. More importantly, we introduce a teacher-student strategy specific to transformers. It relies on a distillation token ensuring that the student learns from the teacher through attention. We show the interest of this token-based distillation, especially when using a convnet as a teacher. This leads us to report results competitive with convnets for both Imagenet (where we obtain up to 85.2% accuracy) and when transferring to other tasks. We share our code and models.

PDF Abstract

Code

Add Remove Mark official

facebookresearch/deit official

3,861

huggingface/transformers

124,593

rwightman/pytorch-image-models

29,680

PaddlePaddle/PaddleClas

5,249

hustvl/vim

2,020

See all 33 implementations

Tasks

Add Remove

Document Image Classification

Document Layout Analysis

Efficient ViTs

Fine-Grained Image Classification

Image Classification

Datasets

CIFAR-10

ImageNet

CIFAR-100

Oxford 102 Flower ImageNet-1K

Stanford Cars

iNaturalist

JFT-300M PubLayNet

RVL-CDIP

Results from the Paper

Edit

Ranked #4 on Efficient ViTs on ImageNet-1K (with DeiT-S)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Classification	CIFAR-10	DeiT-B	Percentage correct	99.1	# 12	Compare
Image Classification	CIFAR-10	DeiT-B	PARAMS	86M	# 234	Compare
Image Classification	CIFAR-100	DeiT-B	Percentage correct	90.8	# 23	Compare
Image Classification	CIFAR-100	DeiT-B	PARAMS	86M	# 198	Compare
Image Classification	Flowers-102	DeiT-B	Accuracy	98.8%	# 17	Compare
Image Classification	Flowers-102	DeiT-B	PARAMS	86M	# 50	Compare
Image Classification	ImageNet	DeiT-B	Top 1 Accuracy	82.6%	# 474	Compare
			Number of params	22M	# 557	Compare
			Top 1 Accuracy	84.2%	# 313	Compare
			Number of params	86M	# 814	Compare
Image Classification	ImageNet	DeiT-B 384	Top 1 Accuracy	85.2%	# 239	Compare
			Number of params	87M	# 822	Compare
			Hardware Burden	None	# 1	Compare
			Operations per network pass	None	# 1	Compare
Image Classification	ImageNet	DeiT-B	Top 1 Accuracy	76.6%	# 839	Compare
Image Classification	ImageNet	DeiT-B	Number of params	5M	# 403	Compare
Efficient ViTs	ImageNet-1K (with DeiT-S)	Base (DeiT-S)	Top 1 Accuracy	79.8	# 4	Compare
Efficient ViTs	ImageNet-1K (with DeiT-S)	Base (DeiT-S)	GFLOPs	4.6	# 41	Compare
Efficient ViTs	ImageNet-1K (with DeiT-T)	Base (DeiT-T)	Top 1 Accuracy	72.2	# 6	Compare
Efficient ViTs	ImageNet-1K (with DeiT-T)	Base (DeiT-T)	GFLOPs	1.2	# 22	Compare
Image Classification	ImageNet ReaL	DeiT-Ti	Accuracy	82.1%	# 49	Compare
Image Classification	ImageNet ReaL	DeiT-Ti	Params	5M	# 37	Compare
Image Classification	ImageNet ReaL	DeiT-B	Accuracy	88.7%	# 26	Compare
Image Classification	ImageNet ReaL	DeiT-B	Params	86M	# 43	Compare
Image Classification	ImageNet ReaL	DeiT-B-384	Accuracy	89.3%	# 24	Compare
Image Classification	ImageNet ReaL	DeiT-B-384	Params	86M	# 43	Compare
Image Classification	ImageNet ReaL	DeiT-S	Accuracy	86.8%	# 36	Compare
Image Classification	ImageNet ReaL	DeiT-S	Params	22M	# 39	Compare
Image Classification	iNaturalist 2018	DeiT-B	Top-1 Accuracy	79.5%	# 15	Compare
Fine-Grained Image Classification	Oxford 102 Flowers	DeiT-B	Accuracy	98.8%	# 11	Compare
Fine-Grained Image Classification	Oxford 102 Flowers	DeiT-B	PARAMS	86M	# 26	Compare
Document Layout Analysis	PubLayNet val	DeiT-B	Text	0.934	# 8	Compare
			Title	0.874	# 8	Compare
			List	0.921	# 10	Compare
			Table	0.972	# 11	Compare
			Figure	0.957	# 9	Compare
			Overall	0.932	# 9	Compare
Fine-Grained Image Classification	Stanford Cars	DeiT-B	Accuracy	93.3%	# 56	Compare
Fine-Grained Image Classification	Stanford Cars	DeiT-B	PARAMS	86M	# 73	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Uses Extra Training Data	Source Paper	Compare
Document Image Classification	RVL-CDIP	DeiT-B	Accuracy	90.32%	# 29			See all
Document Image Classification	RVL-CDIP	DeiT-B	Parameters	87M	# 15			See all

Methods

Add Remove

AdamW • Attention Dropout • CutMix • DeiT • Dense Connections • Dropout • Feedforward Network • FixRes • Label Smoothing • Linear Layer • Mixup • Multi-Head Attention • RandAugment • Scaled Dot-Product Attention • Softmax • Stochastic Depth • Weight Decay

Edit Social Preview

Training data-efficient image transformers & distillation through attention

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit