TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semantic Segmentation	ADE20K	InternImage-H (M3I Pre-training)	Params (M)	1310	# 3
Semantic Segmentation	ADE20K	InternImage-L	Validation mIoU	54.1	# 61
Semantic Segmentation	ADE20K	InternImage-L	Params (M)	256	# 15
Semantic Segmentation	ADE20K	InternImage-L	GFLOPs	2526	# 4
Semantic Segmentation	ADE20K	InternImage-XL	Validation mIoU	55.3	# 42
Semantic Segmentation	ADE20K	InternImage-XL	Params (M)	368	# 13
Semantic Segmentation	ADE20K	InternImage-XL	GFLOPs	3142	# 5
Semantic Segmentation	ADE20K	InternImage-H	Validation mIoU	62.9	# 2
Semantic Segmentation	ADE20K	InternImage-H	Params (M)	1310	# 3
Semantic Segmentation	ADE20K	InternImage-H	GFLOPs	4635	# 6
Semantic Segmentation	ADE20K	InternImage-T	Validation mIoU	48.1	# 142
Semantic Segmentation	ADE20K	InternImage-T	Params (M)	59	# 43
Semantic Segmentation	ADE20K	InternImage-T	GFLOPs	944	# 1
Semantic Segmentation	ADE20K	InternImage-S	Validation mIoU	50.9	# 100
Semantic Segmentation	ADE20K	InternImage-S	Params (M)	80	# 37
Semantic Segmentation	ADE20K	InternImage-S	GFLOPs	1017	# 2
Semantic Segmentation	ADE20K	InternImage-B	Validation mIoU	51.3	# 91
Semantic Segmentation	ADE20K	InternImage-B	Params (M)	128	# 22
Semantic Segmentation	ADE20K	InternImage-B	GFLOPs	1185	# 3
2D Object Detection	BDD100K val	InternImage-H	mAP	38.8	# 1
Semantic Segmentation	Cityscapes test	InternImage-H	Mean IoU (class)	86.1%	# 3
Semantic Segmentation	Cityscapes val	InternImage-XL	mIoU	86.4	# 5
Semantic Segmentation	Cityscapes val	InternImage-H	mIoU	87	# 3
Instance Segmentation	COCO minival	InternImage-XL	mask AP	48.8	# 30
Instance Segmentation	COCO minival	InternImage-XL	Params (M)	387	# 1
Instance Segmentation	COCO minival	InternImage-XL	GFLOPs	1782	# 5
Object Detection	COCO minival	InternImage-XL	box AP	64.2	# 8
Object Detection	COCO minival	InternImage-H	box AP	65.0	# 2
Instance Segmentation	COCO minival	InternImage-L	mask AP	48.5	# 33
Instance Segmentation	COCO minival	InternImage-L	Params (M)	277	# 2
Instance Segmentation	COCO minival	InternImage-L	GFLOPs	1399	# 4
Instance Segmentation	COCO minival	InternImage-L	box AP	56.1	# 1
Instance Segmentation	COCO minival	InternImage-S	mask AP	44.5	# 50
Instance Segmentation	COCO minival	InternImage-S	Params (M)	69	# 4
Instance Segmentation	COCO minival	InternImage-S	GFLOPs	340	# 2
Instance Segmentation	COCO minival	InternImage-S	box AP	49.7	# 2
Instance Segmentation	COCO minival	InternImage-T	mask AP	43.7	# 55
Instance Segmentation	COCO minival	InternImage-T	Params (M)	49	# 5
Instance Segmentation	COCO minival	InternImage-T	GFLOPs	270	# 1
Instance Segmentation	COCO minival	InternImage-T	box AP	49.1	# 3
Instance Segmentation	COCO minival	InternImage-H	mask AP	55.4	# 1
Instance Segmentation	COCO minival	InternImage-H	AP50	80.1	# 1
Instance Segmentation	COCO minival	InternImage-H	AP75	61.5	# 1
Instance Segmentation	COCO minival	InternImage-H	APL	74.4	# 1
Instance Segmentation	COCO minival	InternImage-H	APM	58.4	# 1
Instance Segmentation	COCO minival	InternImage-H	APS	37.9	# 1
Instance Segmentation	COCO minival	InternImage-B	Params (M)	115	# 3
Instance Segmentation	COCO minival	InternImage-B	GFLOPs	501	# 3
Object Detection	COCO-O	InternImage-L (Cascade Mask R-CNN)	Average mAP	37.0	# 8
Object Detection	COCO-O	InternImage-L (Cascade Mask R-CNN)	Effective Robustness	11.72	# 8
Object Detection	COCO test-dev	InternImage-H	box mAP	65.4	# 2
Object Detection	COCO test-dev	InternImage-H	Params (M)	2180	# 2
Object Detection	COCO test-dev	InternImage-XL	box mAP	64.3	# 10
Object Detection	COCO test-dev	InternImage-XL	Params (M)	602	# 4
Object Detection	COCO test-dev	InternImage-H (M3I Pre-training)	Params (M)	2180	# 2
Instance Segmentation	COCO test-dev	InternImage-H	AP50	80.8	# 1
Instance Segmentation	COCO test-dev	InternImage-H	AP75	62.2	# 1
Instance Segmentation	COCO test-dev	InternImage-H	APS	41.0	# 1
Instance Segmentation	COCO test-dev	InternImage-H	APM	58.9	# 1
Instance Segmentation	COCO test-dev	InternImage-H	APL	70.3	# 4
Object Detection	CrowdHuman (full body)	InternImage-H	AP	97.2	# 1
Image Classification	ImageNet	InternImage-S	Top 1 Accuracy	84.2%	# 313
Image Classification	ImageNet	InternImage-S	Number of params	50M	# 725
Image Classification	ImageNet	InternImage-S	GFLOPs	8	# 267
Image Classification	ImageNet	InternImage-B	Top 1 Accuracy	84.9%	# 265
Image Classification	ImageNet	InternImage-B	Number of params	97M	# 858
Image Classification	ImageNet	InternImage-B	GFLOPs	16	# 346
Image Classification	ImageNet	InternImage-L	Top 1 Accuracy	87.7%	# 82
Image Classification	ImageNet	InternImage-L	Number of params	223M	# 905
Image Classification	ImageNet	InternImage-L	GFLOPs	108	# 454
Image Classification	ImageNet	InternImage-XL	Top 1 Accuracy	88%	# 69
Image Classification	ImageNet	InternImage-XL	Number of params	335M	# 921
Image Classification	ImageNet	InternImage-XL	GFLOPs	163	# 463
Image Classification	ImageNet	InternImage-DCNv3-G (M3I Pre-training)	Top 1 Accuracy	90.1%	# 16
Image Classification	ImageNet	InternImage-DCNv3-G (M3I Pre-training)	Number of params	3000M	# 973
Image Classification	ImageNet	InternImage-H	Top 1 Accuracy	89.6%	# 24
Image Classification	ImageNet	InternImage-H	Number of params	1080M	# 957
Image Classification	ImageNet	InternImage-H	GFLOPs	1478	# 490
Image Classification	ImageNet	InternImage-T	Top 1 Accuracy	83.5%	# 391
Image Classification	ImageNet	InternImage-T	Number of params	30M	# 646
Image Classification	ImageNet	InternImage-T	GFLOPs	5	# 231
Image Classification	iNaturalist 2018	InternImage-H	Top-1 Accuracy	92.6%	# 2
Object Detection	LVIS v1.0 minival	InternImage-H	box AP	65.8	# 2
Object Detection	LVIS v1.0 val	InternImage-H	box AP	63.2	# 2
Object Detection	OpenImages-v6	InternImage-H	box AP	74.1	# 2
Semantic Segmentation	PASCAL Context	InternImage-H	mIoU	70.3	# 2
Object Detection	PASCAL VOC 2012	InternImage-H	MAP	97.2	# 1
Image Classification	Places205	InternImage-H	Top 1 Accuracy	71.7%	# 1
Image Classification	Places365	InternImage-H（CNN）	Top 1 Accuracy	61.2%	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/2d-object-detection-on-bdd100k-val)](https://paperswithcode.com/sota/2d-object-detection-on-bdd100k-val?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/instance-segmentation-on-coco-minival)](https://paperswithcode.com/sota/instance-segmentation-on-coco-minival?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/instance-segmentation-on-coco)](https://paperswithcode.com/sota/instance-segmentation-on-coco?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/object-detection-on-crowdhuman-full-body)](https://paperswithcode.com/sota/object-detection-on-crowdhuman-full-body?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/object-detection-on-pascal-voc-2012)](https://paperswithcode.com/sota/object-detection-on-pascal-voc-2012?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/image-classification-on-places205)](https://paperswithcode.com/sota/image-classification-on-places205?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/semantic-segmentation-on-ade20k)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/object-detection-on-coco-minival)](https://paperswithcode.com/sota/object-detection-on-coco-minival?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/object-detection-on-coco)](https://paperswithcode.com/sota/object-detection-on-coco?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/image-classification-on-inaturalist-2018)](https://paperswithcode.com/sota/image-classification-on-inaturalist-2018?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/object-detection-on-lvis-v1-0-minival)](https://paperswithcode.com/sota/object-detection-on-lvis-v1-0-minival?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/object-detection-on-lvis-v1-0-val)](https://paperswithcode.com/sota/object-detection-on-lvis-v1-0-val?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/object-detection-on-openimages-v6)](https://paperswithcode.com/sota/object-detection-on-openimages-v6?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/semantic-segmentation-on-pascal-context)](https://paperswithcode.com/sota/semantic-segmentation-on-pascal-context?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/image-classification-on-places365)](https://paperswithcode.com/sota/image-classification-on-places365?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/semantic-segmentation-on-cityscapes)](https://paperswithcode.com/sota/semantic-segmentation-on-cityscapes?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/semantic-segmentation-on-cityscapes-val)](https://paperswithcode.com/sota/semantic-segmentation-on-cityscapes-val?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/object-detection-on-coco-o)](https://paperswithcode.com/sota/object-detection-on-coco-o?p=internimage-exploring-large-scale-vision)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/internimage-exploring-large-scale-vision/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=internimage-exploring-large-scale-vision)`

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

CVPR 2023 · Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao ·

Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed InternImage, which can obtain the gain from increasing parameters and training data like ViTs. Different from the recent CNNs that focus on large dense kernels, InternImage takes deformable convolution as the core operator, so that our model not only has the large effective receptive field required for downstream tasks such as detection and segmentation, but also has the adaptive spatial aggregation conditioned by input and task information. As a result, the proposed InternImage reduces the strict inductive bias of traditional CNNs and makes it possible to learn stronger and more robust patterns with large-scale parameters from massive data like ViTs. The effectiveness of our model is proven on challenging benchmarks including ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved a new record 65.4 mAP on COCO test-dev and 62.9 mIoU on ADE20K, outperforming current leading CNNs and ViTs. The code will be released at https://github.com/OpenGVLab/InternImage.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

opengvlab/internimage official

2,296

OpenGVLab/M3I-Pretraining

Tasks

Add Remove

2D Object Detection

Classification

Image Classification

Instance Segmentation

Object Detection

Semantic Segmentation

Datasets

ImageNet

MS COCO

Cityscapes

ADE20K

NYUv2

Places205

iNaturalist

LVIS

BDD100K

PASCAL Context

CrowdHuman

Objects365

CC12M

Places365

COCO-O OpenImages-v6

Results from the Paper

Edit

Ranked #1 on Instance Segmentation on COCO test-dev (AP50 metric, using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semantic Segmentation	ADE20K	InternImage-H (M3I Pre-training)	Params (M)	1310	# 3	Compare
Semantic Segmentation	ADE20K	InternImage-L	Validation mIoU	54.1	# 61	Compare
			Params (M)	256	# 15	Compare
			GFLOPs	2526	# 4	Compare
Semantic Segmentation	ADE20K	InternImage-XL	Validation mIoU	55.3	# 42	Compare
			Params (M)	368	# 13	Compare
			GFLOPs	3142	# 5	Compare
Semantic Segmentation	ADE20K	InternImage-H	Validation mIoU	62.9	# 2	Compare
			Params (M)	1310	# 3	Compare
			GFLOPs	4635	# 6	Compare
Semantic Segmentation	ADE20K	InternImage-T	Validation mIoU	48.1	# 142	Compare
			Params (M)	59	# 43	Compare
			GFLOPs	944	# 1	Compare
Semantic Segmentation	ADE20K	InternImage-S	Validation mIoU	50.9	# 100	Compare
			Params (M)	80	# 37	Compare
			GFLOPs	1017	# 2	Compare
Semantic Segmentation	ADE20K	InternImage-B	Validation mIoU	51.3	# 91	Compare
			Params (M)	128	# 22	Compare
			GFLOPs	1185	# 3	Compare
2D Object Detection	BDD100K val	InternImage-H	mAP	38.8	# 1	Compare
Semantic Segmentation	Cityscapes test	InternImage-H	Mean IoU (class)	86.1%	# 3	Compare
Semantic Segmentation	Cityscapes val	InternImage-XL	mIoU	86.4	# 5	Compare
Semantic Segmentation	Cityscapes val	InternImage-H	mIoU	87	# 3	Compare
Instance Segmentation	COCO minival	InternImage-XL	mask AP	48.8	# 30	Compare
			Params (M)	387	# 1	Compare
			GFLOPs	1782	# 5	Compare
Object Detection	COCO minival	InternImage-XL	box AP	64.2	# 8	Compare
Object Detection	COCO minival	InternImage-H	box AP	65.0	# 2	Compare
Instance Segmentation	COCO minival	InternImage-L	mask AP	48.5	# 33	Compare
			Params (M)	277	# 2	Compare
			GFLOPs	1399	# 4	Compare
			box AP	56.1	# 1	Compare
Instance Segmentation	COCO minival	InternImage-S	mask AP	44.5	# 50	Compare
			Params (M)	69	# 4	Compare
			GFLOPs	340	# 2	Compare
			box AP	49.7	# 2	Compare
Instance Segmentation	COCO minival	InternImage-T	mask AP	43.7	# 55	Compare
			Params (M)	49	# 5	Compare
			GFLOPs	270	# 1	Compare
			box AP	49.1	# 3	Compare
Instance Segmentation	COCO minival	InternImage-H	mask AP	55.4	# 1	Compare
			AP50	80.1	# 1	Compare
			AP75	61.5	# 1	Compare
			APL	74.4	# 1	Compare
			APM	58.4	# 1	Compare
			APS	37.9	# 1	Compare
Instance Segmentation	COCO minival	InternImage-B	Params (M)	115	# 3	Compare
Instance Segmentation	COCO minival	InternImage-B	GFLOPs	501	# 3	Compare
Object Detection	COCO-O	InternImage-L (Cascade Mask R-CNN)	Average mAP	37.0	# 8	Compare
Object Detection	COCO-O	InternImage-L (Cascade Mask R-CNN)	Effective Robustness	11.72	# 8	Compare
Object Detection	COCO test-dev	InternImage-H	box mAP	65.4	# 2	Compare
Object Detection	COCO test-dev	InternImage-H	Params (M)	2180	# 2	Compare
Object Detection	COCO test-dev	InternImage-XL	box mAP	64.3	# 10	Compare
Object Detection	COCO test-dev	InternImage-XL	Params (M)	602	# 4	Compare
Object Detection	COCO test-dev	InternImage-H (M3I Pre-training)	Params (M)	2180	# 2	Compare
Instance Segmentation	COCO test-dev	InternImage-H	AP50	80.8	# 1	Compare
			AP75	62.2	# 1	Compare
			APS	41.0	# 1	Compare
			APM	58.9	# 1	Compare
			APL	70.3	# 4	Compare
Object Detection	CrowdHuman (full body)	InternImage-H	AP	97.2	# 1	Compare
Image Classification	ImageNet	InternImage-S	Top 1 Accuracy	84.2%	# 313	Compare
			Number of params	50M	# 725	Compare
			GFLOPs	8	# 267	Compare
Image Classification	ImageNet	InternImage-B	Top 1 Accuracy	84.9%	# 265	Compare
			Number of params	97M	# 858	Compare
			GFLOPs	16	# 346	Compare
Image Classification	ImageNet	InternImage-L	Top 1 Accuracy	87.7%	# 82	Compare
			Number of params	223M	# 905	Compare
			GFLOPs	108	# 454	Compare
Image Classification	ImageNet	InternImage-XL	Top 1 Accuracy	88%	# 69	Compare
			Number of params	335M	# 921	Compare
			GFLOPs	163	# 463	Compare
Image Classification	ImageNet	InternImage-DCNv3-G (M3I Pre-training)	Top 1 Accuracy	90.1%	# 16	Compare
Image Classification	ImageNet	InternImage-DCNv3-G (M3I Pre-training)	Number of params	3000M	# 973	Compare
Image Classification	ImageNet	InternImage-H	Top 1 Accuracy	89.6%	# 24	Compare
			Number of params	1080M	# 957	Compare
			GFLOPs	1478	# 490	Compare
Image Classification	ImageNet	InternImage-T	Top 1 Accuracy	83.5%	# 391	Compare
			Number of params	30M	# 646	Compare
			GFLOPs	5	# 231	Compare
Image Classification	iNaturalist 2018	InternImage-H	Top-1 Accuracy	92.6%	# 2	Compare
Object Detection	LVIS v1.0 minival	InternImage-H	box AP	65.8	# 2	Compare
Object Detection	LVIS v1.0 val	InternImage-H	box AP	63.2	# 2	Compare
Object Detection	OpenImages-v6	InternImage-H	box AP	74.1	# 2	Compare
Semantic Segmentation	PASCAL Context	InternImage-H	mIoU	70.3	# 2	Compare
Object Detection	PASCAL VOC 2012	InternImage-H	MAP	97.2	# 1	Compare
Image Classification	Places205	InternImage-H	Top 1 Accuracy	71.7%	# 1	Compare
Image Classification	Places365	InternImage-H（CNN）	Top 1 Accuracy	61.2%	# 2	Compare

Methods

Add Remove

Convolution • Deformable Convolution

Edit Social Preview

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove