TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Classification	CIFAR-10	CvT-W24	Percentage correct	99.39	# 6
Image Classification	CIFAR-10	CvT-W24	Top-1 Accuracy	99.39	# 2
Image Classification	CIFAR-100	CvT-W24	Percentage correct	94.09	# 5
Image Classification	Flowers-102	CvT-W24	Accuracy	99.72	# 3
Image Classification	ImageNet	CvT-21 (384 res, ImageNet-22k pretrain)	Top 1 Accuracy	84.9%	# 265
Image Classification	ImageNet	CvT-21 (384 res, ImageNet-22k pretrain)	Number of params	32M	# 653
Image Classification	ImageNet	CvT-21 (384 res, ImageNet-22k pretrain)	GFLOPs	25	# 382
Image Classification	ImageNet	CvT-21	Top 1 Accuracy	82.5%	# 482
Image Classification	ImageNet	CvT-21	GFLOPs	7.1	# 250
Image Classification	ImageNet	CvT-13	Top 1 Accuracy	81.6%	# 569
Image Classification	ImageNet	CvT-13	GFLOPs	4.5	# 211
Image Classification	ImageNet	CvT-13 (384 res)	Top 1 Accuracy	83%	# 437
Image Classification	ImageNet	CvT-13 (384 res)	Number of params	20M	# 536
Image Classification	ImageNet	CvT-13 (384 res)	GFLOPs	16.3	# 348
Image Classification	ImageNet	CvT-13-NAS	Top 1 Accuracy	82.2%	# 510
Image Classification	ImageNet	CvT-13-NAS	Number of params	18M	# 526
Image Classification	ImageNet	CvT-13-NAS	GFLOPs	4.1	# 196
Image Classification	ImageNet	CvT-21 (384 res)	Top 1 Accuracy	83.3%	# 403
Image Classification	ImageNet	CvT-21 (384 res)	GFLOPs	24.9	# 381
Image Classification	ImageNet ReaL	CvT-W24 (384 res, ImageNet-22k pretrain)	Accuracy	90.6%	# 14
Image Classification	ImageNet ReaL	CvT-W24 (384 res, ImageNet-22k pretrain)	Params	277M	# 46
Image Classification	ImageNet ReaL	CvT-W24 (384 res, ImageNet-22k pretrain)	Top 1 Accuracy	87.7%	# 1
Image Classification	ImageNet ReaL	CvT-W24 (384 res, ImageNet-22k pretrain)	Number of params	277M	# 3
Image Classification	Oxford-IIIT Pets	CvT-W24	Accuracy	94.73	# 3

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cvt-introducing-convolutions-to-vision/image-classification-on-flowers-102)](https://paperswithcode.com/sota/image-classification-on-flowers-102?p=cvt-introducing-convolutions-to-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cvt-introducing-convolutions-to-vision/image-classification-on-oxford-iiit-pets-1)](https://paperswithcode.com/sota/image-classification-on-oxford-iiit-pets-1?p=cvt-introducing-convolutions-to-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cvt-introducing-convolutions-to-vision/image-classification-on-cifar-100)](https://paperswithcode.com/sota/image-classification-on-cifar-100?p=cvt-introducing-convolutions-to-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cvt-introducing-convolutions-to-vision/image-classification-on-cifar-10)](https://paperswithcode.com/sota/image-classification-on-cifar-10?p=cvt-introducing-convolutions-to-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cvt-introducing-convolutions-to-vision/image-classification-on-imagenet-real)](https://paperswithcode.com/sota/image-classification-on-imagenet-real?p=cvt-introducing-convolutions-to-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/cvt-introducing-convolutions-to-vision/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=cvt-introducing-convolutions-to-vision)`

CvT: Introducing Convolutions to Vision Transformers

ICCV 2021 · Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang ·

We present in this paper a new architecture, named Convolutional vision Transformer (CvT), that improves Vision Transformer (ViT) in performance and efficiency by introducing convolutions into ViT to yield the best of both designs. This is accomplished through two primary modifications: a hierarchy of Transformers containing a new convolutional token embedding, and a convolutional Transformer block leveraging a convolutional projection. These changes introduce desirable properties of convolutional neural networks (CNNs) to the ViT architecture (\ie shift, scale, and distortion invariance) while maintaining the merits of Transformers (\ie dynamic attention, global context, and better generalization). We validate CvT by conducting extensive experiments, showing that this approach achieves state-of-the-art performance over other Vision Transformers and ResNets on ImageNet-1k, with fewer parameters and lower FLOPs. In addition, performance gains are maintained when pretrained on larger datasets (\eg ImageNet-22k) and fine-tuned to downstream tasks. Pre-trained on ImageNet-22k, our CvT-W24 obtains a top-1 accuracy of 87.7\% on the ImageNet-1k val set. Finally, our results show that the positional encoding, a crucial component in existing Vision Transformers, can be safely removed in our model, simplifying the design for higher resolution vision tasks. Code will be released at \url{https://github.com/leoxiaobin/CvT}.

PDF Abstract ICCV 2021 PDF ICCV 2021 Abstract

Code

Add Remove Mark official

microsoft/CvT official

514

huggingface/transformers

124,593

BR-IDL/PaddleViT

1,183

microsoft/esvit

405

PaddlePaddle/PASSL

258

See all 14 implementations

Tasks

Add Remove

Image Classification

Datasets

CIFAR-10

ImageNet

CIFAR-100

Oxford 102 Flower Oxford-IIIT Pets

Results from the Paper

Edit

Ranked #3 on Image Classification on Flowers-102 (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Classification	CIFAR-10	CvT-W24	Percentage correct	99.39	# 6	Compare
Image Classification	CIFAR-10	CvT-W24	Top-1 Accuracy	99.39	# 2	Compare
Image Classification	CIFAR-100	CvT-W24	Percentage correct	94.09	# 5	Compare
Image Classification	Flowers-102	CvT-W24	Accuracy	99.72	# 3	Compare
Image Classification	ImageNet	CvT-21 (384 res, ImageNet-22k pretrain)	Top 1 Accuracy	84.9%	# 265	Compare
			Number of params	32M	# 653	Compare
			GFLOPs	25	# 382	Compare
Image Classification	ImageNet	CvT-21	Top 1 Accuracy	82.5%	# 482	Compare
Image Classification	ImageNet	CvT-21	GFLOPs	7.1	# 250	Compare
Image Classification	ImageNet	CvT-13	Top 1 Accuracy	81.6%	# 569	Compare
Image Classification	ImageNet	CvT-13	GFLOPs	4.5	# 211	Compare
Image Classification	ImageNet	CvT-13 (384 res)	Top 1 Accuracy	83%	# 437	Compare
			Number of params	20M	# 536	Compare
			GFLOPs	16.3	# 348	Compare
Image Classification	ImageNet	CvT-13-NAS	Top 1 Accuracy	82.2%	# 510	Compare
			Number of params	18M	# 526	Compare
			GFLOPs	4.1	# 196	Compare
Image Classification	ImageNet	CvT-21 (384 res)	Top 1 Accuracy	83.3%	# 403	Compare
Image Classification	ImageNet	CvT-21 (384 res)	GFLOPs	24.9	# 381	Compare
Image Classification	ImageNet ReaL	CvT-W24 (384 res, ImageNet-22k pretrain)	Accuracy	90.6%	# 14	Compare
			Params	277M	# 46	Compare
			Top 1 Accuracy	87.7%	# 1	Compare
			Number of params	277M	# 3	Compare
Image Classification	Oxford-IIIT Pets	CvT-W24	Accuracy	94.73	# 3	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • Average Pooling • Batch Normalization • BPE • Convolution • CvT • Dense Connections • Depthwise Convolution • Depthwise Separable Convolution • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Pointwise Convolution • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • Vision Transformer

Edit Social Preview

CvT: Introducing Convolutions to Vision Transformers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove