TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semantic Segmentation	ADE20K	ViT-Adapter-L (UperNet, BEiT pretrain)	Validation mIoU	58.4	# 14
Semantic Segmentation	ADE20K	ViT-Adapter-L (UperNet, BEiT pretrain)	Params (M)	451	# 11
Semantic Segmentation	ADE20K	ViT-Adapter-L (Mask2Former, BEiT pretrain)	Validation mIoU	60.5	# 10
Semantic Segmentation	ADE20K	ViT-Adapter-L (Mask2Former, BEiT pretrain)	Params (M)	571	# 8
Semantic Segmentation	ADE20K	ViT-Adapter-L (Mask2Former, BEiTv2 pretrain)	Validation mIoU	61.5	# 6
Semantic Segmentation	ADE20K	ViT-Adapter-L (Mask2Former, BEiTv2 pretrain)	Params (M)	571	# 8
Semantic Segmentation	ADE20K val	ViT-Adapter-L (Mask2Former, BEiT pretrain)	mIoU	60.5	# 7
Semantic Segmentation	ADE20K val	ViT-Adapter-L (UperNet, BEiT pretrain)	mIoU	58.4	# 9
Semantic Segmentation	Cityscapes test	ViT-Adapter-L (Mask2Former, BEiT pretrain)	Mean IoU (class)	85.2%	# 6
Semantic Segmentation	Cityscapes val	ViT-Adapter-L	mIoU	85.8	# 8
Instance Segmentation	COCO minival	ViT-Adapter-L (HTC++, BEiTv2 pretrain, multi-scale)	mask AP	52.5	# 11
Instance Segmentation	COCO minival	ViT-Adapter-L (HTC++, BEiTv2, O365, multi-scale)	mask AP	54.2	# 5
Panoptic Segmentation	COCO minival	ViT-Adapter-L (single-scale, BEiTv2 pretrain, Mask2Former)	PQ	58.4	# 5
Panoptic Segmentation	COCO minival	ViT-Adapter-L (single-scale, BEiTv2 pretrain, Mask2Former)	PQth	65.0	# 2
Panoptic Segmentation	COCO minival	ViT-Adapter-L (single-scale, BEiTv2 pretrain, Mask2Former)	PQst	48.4	# 6
Panoptic Segmentation	COCO minival	ViT-Adapter-L (single-scale, BEiTv2 pretrain, Mask2Former)	AP	48.9	# 7
Instance Segmentation	COCO minival	ViT-Adapter-L (HTC++, BEiT pretrain, multi-scale)	mask AP	52.2	# 13
Object Detection	COCO minival	ViT-Adapter-L (HTC++, BEiTv2 pretrain, multi-scale)	box AP	60.5	# 20
Object Detection	COCO minival	ViT-Adapter-L (HTC++, BEiT pretrain, multi-scale)	box AP	60.2	# 24
Object Detection	COCO-O	ViT-Adapter (BEiTv2-L)	Average mAP	34.25	# 11
Object Detection	COCO-O	ViT-Adapter (BEiTv2-L)	Effective Robustness	7.79	# 14
Object Detection	COCO test-dev	ViT-Adapter-L (HTC++, BEiTv2 pretrain, multi-scale)	box mAP	60.9	# 23
Object Detection	COCO test-dev	ViT-Adapter-L (HTC++, BEiT pretrain, multi-scale)	box mAP	60.4	# 26
Instance Segmentation	COCO test-dev	ViT-Adapter-L (HTC++, BEiTv2 pretrain, multi-scale)	mask AP	53.0	# 10
Instance Segmentation	COCO test-dev	ViT-Adapter-L (HTC++, BEiTv2, O365, multi-scale)	mask AP	54.5	# 6
Instance Segmentation	COCO test-dev	ViT-Adapter-L (HTC++, BEiT pretrain, multi-scale)	mask AP	52.5	# 13
Semantic Segmentation	PASCAL Context	ViT-Adapter-L (Mask2Former, BEiT pretrain)	mIoU	68.2	# 4
Semantic Segmentation	PASCAL Context	ViT-Adapter-L (UperNet, BEiT pretrain)	mIoU	67.5	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/semantic-segmentation-on-pascal-context)](https://paperswithcode.com/sota/semantic-segmentation-on-pascal-context?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/instance-segmentation-on-coco-minival)](https://paperswithcode.com/sota/instance-segmentation-on-coco-minival?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/panoptic-segmentation-on-coco-minival)](https://paperswithcode.com/sota/panoptic-segmentation-on-coco-minival?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/semantic-segmentation-on-ade20k)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/semantic-segmentation-on-cityscapes)](https://paperswithcode.com/sota/semantic-segmentation-on-cityscapes?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/instance-segmentation-on-coco)](https://paperswithcode.com/sota/instance-segmentation-on-coco?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/semantic-segmentation-on-ade20k-val)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k-val?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/semantic-segmentation-on-cityscapes-val)](https://paperswithcode.com/sota/semantic-segmentation-on-cityscapes-val?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/object-detection-on-coco-o)](https://paperswithcode.com/sota/object-detection-on-coco-o?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/object-detection-on-coco-minival)](https://paperswithcode.com/sota/object-detection-on-coco-minival?p=vision-transformer-adapter-for-dense)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vision-transformer-adapter-for-dense/object-detection-on-coco)](https://paperswithcode.com/sota/object-detection-on-coco?p=vision-transformer-adapter-for-dense)`

Vision Transformer Adapter for Dense Predictions

17 May 2022 · Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu Qiao ·

This work investigates a simple yet powerful dense prediction task adapter for Vision Transformer (ViT). Unlike recently advanced variants that incorporate vision-specific inductive biases into their architectures, the plain ViT suffers inferior performance on dense predictions due to weak prior assumptions. To address this issue, we propose the ViT-Adapter, which allows plain ViT to achieve comparable performance to vision-specific transformers. Specifically, the backbone in our framework is a plain ViT that can learn powerful representations from large-scale multi-modal data. When transferring to downstream tasks, a pre-training-free adapter is used to introduce the image-related inductive biases into the model, making it suitable for these tasks. We verify ViT-Adapter on multiple dense prediction tasks, including object detection, instance segmentation, and semantic segmentation. Notably, without using extra detection data, our ViT-Adapter-L yields state-of-the-art 60.9 box AP and 53.0 mask AP on COCO test-dev. We hope that the ViT-Adapter could serve as an alternative for vision-specific transformers and facilitate future research. The code and models will be released at https://github.com/czczup/ViT-Adapter.

PDF Abstract

Code

Add Remove Mark official

czczup/vit-adapter official

↳ Quickstart in

Colab

1,118

Tasks

Add Remove

Instance Segmentation

Object Detection

Panoptic Segmentation

Real-Time Object Detection

Semantic Segmentation

Datasets

ImageNet

MS COCO

Cityscapes

ADE20K

PASCAL Context

COCO-O

Results from the Paper

Edit

Ranked #4 on Semantic Segmentation on PASCAL Context

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semantic Segmentation	ADE20K	ViT-Adapter-L (UperNet, BEiT pretrain)	Validation mIoU	58.4	# 14	Compare
Semantic Segmentation	ADE20K	ViT-Adapter-L (UperNet, BEiT pretrain)	Params (M)	451	# 11	Compare
Semantic Segmentation	ADE20K	ViT-Adapter-L (Mask2Former, BEiT pretrain)	Validation mIoU	60.5	# 10	Compare
Semantic Segmentation	ADE20K	ViT-Adapter-L (Mask2Former, BEiT pretrain)	Params (M)	571	# 8	Compare
Semantic Segmentation	ADE20K	ViT-Adapter-L (Mask2Former, BEiTv2 pretrain)	Validation mIoU	61.5	# 6	Compare
Semantic Segmentation	ADE20K	ViT-Adapter-L (Mask2Former, BEiTv2 pretrain)	Params (M)	571	# 8	Compare
Semantic Segmentation	ADE20K val	ViT-Adapter-L (Mask2Former, BEiT pretrain)	mIoU	60.5	# 7	Compare
Semantic Segmentation	ADE20K val	ViT-Adapter-L (UperNet, BEiT pretrain)	mIoU	58.4	# 9	Compare
Semantic Segmentation	Cityscapes test	ViT-Adapter-L (Mask2Former, BEiT pretrain)	Mean IoU (class)	85.2%	# 6	Compare
Semantic Segmentation	Cityscapes val	ViT-Adapter-L	mIoU	85.8	# 8	Compare
Instance Segmentation	COCO minival	ViT-Adapter-L (HTC++, BEiTv2 pretrain, multi-scale)	mask AP	52.5	# 11	Compare
Instance Segmentation	COCO minival	ViT-Adapter-L (HTC++, BEiTv2, O365, multi-scale)	mask AP	54.2	# 5	Compare
Panoptic Segmentation	COCO minival	ViT-Adapter-L (single-scale, BEiTv2 pretrain, Mask2Former)	PQ	58.4	# 5	Compare
			PQth	65.0	# 2	Compare
			PQst	48.4	# 6	Compare
			AP	48.9	# 7	Compare
Instance Segmentation	COCO minival	ViT-Adapter-L (HTC++, BEiT pretrain, multi-scale)	mask AP	52.2	# 13	Compare
Object Detection	COCO minival	ViT-Adapter-L (HTC++, BEiTv2 pretrain, multi-scale)	box AP	60.5	# 20	Compare
Object Detection	COCO minival	ViT-Adapter-L (HTC++, BEiT pretrain, multi-scale)	box AP	60.2	# 24	Compare
Object Detection	COCO-O	ViT-Adapter (BEiTv2-L)	Average mAP	34.25	# 11	Compare
Object Detection	COCO-O	ViT-Adapter (BEiTv2-L)	Effective Robustness	7.79	# 14	Compare
Object Detection	COCO test-dev	ViT-Adapter-L (HTC++, BEiTv2 pretrain, multi-scale)	box mAP	60.9	# 23	Compare
Object Detection	COCO test-dev	ViT-Adapter-L (HTC++, BEiT pretrain, multi-scale)	box mAP	60.4	# 26	Compare
Instance Segmentation	COCO test-dev	ViT-Adapter-L (HTC++, BEiTv2 pretrain, multi-scale)	mask AP	53.0	# 10	Compare
Instance Segmentation	COCO test-dev	ViT-Adapter-L (HTC++, BEiTv2, O365, multi-scale)	mask AP	54.5	# 6	Compare
Instance Segmentation	COCO test-dev	ViT-Adapter-L (HTC++, BEiT pretrain, multi-scale)	mask AP	52.5	# 13	Compare
Semantic Segmentation	PASCAL Context	ViT-Adapter-L (Mask2Former, BEiT pretrain)	mIoU	68.2	# 4	Compare
Semantic Segmentation	PASCAL Context	ViT-Adapter-L (UperNet, BEiT pretrain)	mIoU	67.5	# 5	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • Adapter • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • Vision Transformer

Edit Social Preview

Vision Transformer Adapter for Dense Predictions

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove