TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semantic Segmentation	ADE20K	XCiT-M24/8 (Semantic-FPN)	Validation mIoU	46.9	# 161
Semantic Segmentation	ADE20K	XCiT-S24/8 (UperNet)	Validation mIoU	48.1	# 142
Semantic Segmentation	ADE20K	XCiT-S24/8 (Semantic-FPN)	Validation mIoU	47.1	# 159
Semantic Segmentation	ADE20K	XCiT-S12/8 (UperNet)	Validation mIoU	46.6	# 166
Semantic Segmentation	ADE20K	XCiT-S12/8 (Semantic-FPN)	Validation mIoU	44.2	# 196
Semantic Segmentation	ADE20K	XCiT-M24/8 (UperNet)	Validation mIoU	48.4	# 137
Instance Segmentation	COCO minival	XCiT-S24/8	mask AP	43.0	# 59
Object Detection	COCO minival	XCiT-S24/8	box AP	48.1	# 86
Instance Segmentation	COCO minival	XCiT-M24/8	mask AP	43.7	# 55
Object Detection	COCO minival	XCiT-M24/8	box AP	48.5	# 83
Image Classification	ImageNet	XCiT-M24	Top 1 Accuracy	85.8%	# 187
Image Classification	ImageNet	XCiT-M24	Number of params	84M	# 813
Image Classification	ImageNet	XCiT-M24	GFLOPs	188	# 467
Image Classification	ImageNet	XCiT-S24	Top 1 Accuracy	85.6%	# 209
Image Classification	ImageNet	XCiT-S24	Number of params	48M	# 713
Image Classification	ImageNet	XCiT-S24	GFLOPs	106	# 453
Image Classification	ImageNet	XCiT-S12	Top 1 Accuracy	85.1%	# 245
Image Classification	ImageNet	XCiT-S12	Number of params	26M	# 607
Image Classification	ImageNet	XCiT-S12	GFLOPs	55.6	# 430
Image Classification	ImageNet	XCiT-L24	Top 1 Accuracy	86%	# 176
Image Classification	ImageNet	XCiT-L24	Number of params	189M	# 889
Image Classification	ImageNet	XCiT-L24	GFLOPs	417.9	# 482

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/xcit-cross-covariance-image-transformers/instance-segmentation-on-coco-minival)](https://paperswithcode.com/sota/instance-segmentation-on-coco-minival?p=xcit-cross-covariance-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/xcit-cross-covariance-image-transformers/object-detection-on-coco-minival)](https://paperswithcode.com/sota/object-detection-on-coco-minival?p=xcit-cross-covariance-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/xcit-cross-covariance-image-transformers/semantic-segmentation-on-ade20k)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k?p=xcit-cross-covariance-image-transformers)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/xcit-cross-covariance-image-transformers/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=xcit-cross-covariance-image-transformers)`

XCiT: Cross-Covariance Image Transformers

NeurIPS 2021 · Alaaeldin El-Nouby, Hugo Touvron, Mathilde Caron, Piotr Bojanowski, Matthijs Douze, Armand Joulin, Ivan Laptev, Natalia Neverova, Gabriel Synnaeve, Jakob Verbeek, Hervé Jegou ·

Following their success in natural language processing, transformers have recently shown much promise for computer vision. The self-attention operation underlying transformers yields global interactions between all tokens ,i.e. words or image patches, and enables flexible modelling of image data beyond the local interactions of convolutions. This flexibility, however, comes with a quadratic complexity in time and memory, hindering application to long sequences and high-resolution images. We propose a "transposed" version of self-attention that operates across feature channels rather than tokens, where the interactions are based on the cross-covariance matrix between keys and queries. The resulting cross-covariance attention (XCA) has linear complexity in the number of tokens, and allows efficient processing of high-resolution images. Our cross-covariance image transformer (XCiT) is built upon XCA. It combines the accuracy of conventional transformers with the scalability of convolutional architectures. We validate the effectiveness and generality of XCiT by reporting excellent results on multiple vision benchmarks, including image classification and self-supervised feature learning on ImageNet-1k, object detection and instance segmentation on COCO, and semantic segmentation on ADE20k.

PDF Abstract NeurIPS 2021 PDF NeurIPS 2021 Abstract

Code

Add Remove Mark official

rwightman/pytorch-image-models official

29,890

facebookresearch/xcit official

648

facebookresearch/dino

5,891

facebookresearch/vissl

↳ Quickstart in

Colab

3,230

alibaba/EasyCV

1,687

See all 11 implementations

Tasks

Add Remove

Image Classification

Instance Segmentation

object-detection

Object Detection

Self-Supervised Image Classification

Semantic Segmentation

Datasets

ImageNet

MS COCO

ADE20K

Results from the Paper

Edit

Ranked #55 on Instance Segmentation on COCO minival

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semantic Segmentation	ADE20K	XCiT-M24/8 (Semantic-FPN)	Validation mIoU	46.9	# 161	Compare
Semantic Segmentation	ADE20K	XCiT-S24/8 (UperNet)	Validation mIoU	48.1	# 142	Compare
Semantic Segmentation	ADE20K	XCiT-S24/8 (Semantic-FPN)	Validation mIoU	47.1	# 159	Compare
Semantic Segmentation	ADE20K	XCiT-S12/8 (UperNet)	Validation mIoU	46.6	# 166	Compare
Semantic Segmentation	ADE20K	XCiT-S12/8 (Semantic-FPN)	Validation mIoU	44.2	# 196	Compare
Semantic Segmentation	ADE20K	XCiT-M24/8 (UperNet)	Validation mIoU	48.4	# 137	Compare
Instance Segmentation	COCO minival	XCiT-S24/8	mask AP	43.0	# 59	Compare
Object Detection	COCO minival	XCiT-S24/8	box AP	48.1	# 86	Compare
Instance Segmentation	COCO minival	XCiT-M24/8	mask AP	43.7	# 55	Compare
Object Detection	COCO minival	XCiT-M24/8	box AP	48.5	# 83	Compare
Image Classification	ImageNet	XCiT-M24	Top 1 Accuracy	85.8%	# 187	Compare
			Number of params	84M	# 813	Compare
			GFLOPs	188	# 467	Compare
Image Classification	ImageNet	XCiT-S24	Top 1 Accuracy	85.6%	# 209	Compare
			Number of params	48M	# 713	Compare
			GFLOPs	106	# 453	Compare
Image Classification	ImageNet	XCiT-S12	Top 1 Accuracy	85.1%	# 245	Compare
			Number of params	26M	# 607	Compare
			GFLOPs	55.6	# 430	Compare
Image Classification	ImageNet	XCiT-L24	Top 1 Accuracy	86%	# 176	Compare
			Number of params	189M	# 889	Compare
			GFLOPs	417.9	# 482	Compare

Methods

Add Remove

Batch Normalization • Cross-Covariance Attention • Dense Connections • Depthwise Convolution • Feedforward Network • GELU • Layer Normalization • Local Patch Interaction • Residual Connection • XCiT • XCiT Layer

Edit Social Preview

XCiT: Cross-Covariance Image Transformers

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove