TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Instance Segmentation	COCO minival	ViTDet, ViT-H Cascade (multiscale)	mask AP	53.1	# 8
Object Detection	COCO minival	ViTDet, ViT-H Cascade (multiscale)	box AP	61.3	# 16
Instance Segmentation	COCO minival	ViTDet, ViT-H Cascade	mask AP	52	# 14
Object Detection	COCO minival	ViTDet, ViT-H Cascade	box AP	60.4	# 21
Object Detection	COCO-O	ViTDet (ViT-H)	Average mAP	34.3	# 10
Object Detection	COCO-O	ViTDet (ViT-H)	Effective Robustness	7.89	# 13
Instance Segmentation	LVIS v1.0 val	ViTDet-L	mask AP	46.0	# 6
Instance Segmentation	LVIS v1.0 val	ViTDet-L	mask APr	34.3	# 3
Object Detection	LVIS v1.0 val	ViTDet-H	box AP	53.4	# 6
Object Detection	LVIS v1.0 val	ViTDet-L	box AP	51.2	# 7
Instance Segmentation	LVIS v1.0 val	ViTDet-H	mask AP	48.1	# 5
Instance Segmentation	LVIS v1.0 val	ViTDet-H	mask APr	36.9	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-plain-vision-transformer-backbones/instance-segmentation-on-lvis-v1-0-val)](https://paperswithcode.com/sota/instance-segmentation-on-lvis-v1-0-val?p=exploring-plain-vision-transformer-backbones)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-plain-vision-transformer-backbones/object-detection-on-lvis-v1-0-val)](https://paperswithcode.com/sota/object-detection-on-lvis-v1-0-val?p=exploring-plain-vision-transformer-backbones)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-plain-vision-transformer-backbones/instance-segmentation-on-coco-minival)](https://paperswithcode.com/sota/instance-segmentation-on-coco-minival?p=exploring-plain-vision-transformer-backbones)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-plain-vision-transformer-backbones/object-detection-on-coco-o)](https://paperswithcode.com/sota/object-detection-on-coco-o?p=exploring-plain-vision-transformer-backbones)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/exploring-plain-vision-transformer-backbones/object-detection-on-coco-minival)](https://paperswithcode.com/sota/object-detection-on-coco-minival?p=exploring-plain-vision-transformer-backbones)`

Exploring Plain Vision Transformer Backbones for Object Detection

30 Mar 2022 · Yanghao Li, Hanzi Mao, Ross Girshick, Kaiming He ·

We explore the plain, non-hierarchical Vision Transformer (ViT) as a backbone network for object detection. This design enables the original ViT architecture to be fine-tuned for object detection without needing to redesign a hierarchical backbone for pre-training. With minimal adaptations for fine-tuning, our plain-backbone detector can achieve competitive results. Surprisingly, we observe: (i) it is sufficient to build a simple feature pyramid from a single-scale feature map (without the common FPN design) and (ii) it is sufficient to use window attention (without shifting) aided with very few cross-window propagation blocks. With plain ViT backbones pre-trained as Masked Autoencoders (MAE), our detector, named ViTDet, can compete with the previous leading methods that were all based on hierarchical backbones, reaching up to 61.3 AP_box on the COCO dataset using only ImageNet-1K pre-training. We hope our study will draw attention to research on plain-backbone detectors. Code for ViTDet is available in Detectron2.

PDF Abstract

Code

Add Remove Mark official

facebookresearch/detectron2 official

28,712

PaddlePaddle/PaddleDetection

12,062

alibaba/EasyCV

1,679

ViTAE-Transformer/ViTDet

514

vitae-transformer/qformer

119

See all 6 implementations

Tasks

Add Remove

Instance Segmentation

Object

object-detection

Object Detection

Datasets

ImageNet

MS COCO

ssd

LVIS

COCO-O

Results from the Paper

Edit

Ranked #5 on Instance Segmentation on LVIS v1.0 val

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Instance Segmentation	COCO minival	ViTDet, ViT-H Cascade (multiscale)	mask AP	53.1	# 8	Compare
Object Detection	COCO minival	ViTDet, ViT-H Cascade (multiscale)	box AP	61.3	# 16	Compare
Instance Segmentation	COCO minival	ViTDet, ViT-H Cascade	mask AP	52	# 14	Compare
Object Detection	COCO minival	ViTDet, ViT-H Cascade	box AP	60.4	# 21	Compare
Object Detection	COCO-O	ViTDet (ViT-H)	Average mAP	34.3	# 10	Compare
Object Detection	COCO-O	ViTDet (ViT-H)	Effective Robustness	7.89	# 13	Compare
Instance Segmentation	LVIS v1.0 val	ViTDet-L	mask AP	46.0	# 6	Compare
Instance Segmentation	LVIS v1.0 val	ViTDet-L	mask APr	34.3	# 3	Compare
Object Detection	LVIS v1.0 val	ViTDet-H	box AP	53.4	# 6	Compare
Object Detection	LVIS v1.0 val	ViTDet-L	box AP	51.2	# 7	Compare
Instance Segmentation	LVIS v1.0 val	ViTDet-H	mask AP	48.1	# 5	Compare
Instance Segmentation	LVIS v1.0 val	ViTDet-H	mask APr	36.9	# 2	Compare

Methods

Add Remove

1x1 Convolution • Absolute Position Encodings • Adam • BPE • Convolution • Dense Connections • Dropout • FPN • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • Vision Transformer

Edit Social Preview

Exploring Plain Vision Transformer Backbones for Object Detection

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove