TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semantic Segmentation	ADE20K	M3I Pre-training (InternImage-H)	Validation mIoU	62.9	# 2
Semantic Segmentation	ADE20K	M3I Pre-training (InternImage-H)	Params (M)	1310	# 3
Object Detection	COCO minival	M3I Pre-training (InternImage-H)	box AP	65.0	# 2
Object Detection	COCO test-dev	M3I Pre-training (InternImage-H)	box mAP	65.4	# 2
Image Classification	ImageNet	M3I Pre-training (InternImage-H)	Top 1 Accuracy	89.6%	# 24
Object Detection	LVIS v1.0 minival	M3I Pre-training (InternImage-H, single-scale)	box AP	65.8	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/towards-all-in-one-pre-training-via/semantic-segmentation-on-ade20k)](https://paperswithcode.com/sota/semantic-segmentation-on-ade20k?p=towards-all-in-one-pre-training-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/towards-all-in-one-pre-training-via/object-detection-on-coco-minival)](https://paperswithcode.com/sota/object-detection-on-coco-minival?p=towards-all-in-one-pre-training-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/towards-all-in-one-pre-training-via/object-detection-on-coco)](https://paperswithcode.com/sota/object-detection-on-coco?p=towards-all-in-one-pre-training-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/towards-all-in-one-pre-training-via/object-detection-on-lvis-v1-0-minival)](https://paperswithcode.com/sota/object-detection-on-lvis-v1-0-minival?p=towards-all-in-one-pre-training-via)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/towards-all-in-one-pre-training-via/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=towards-all-in-one-pre-training-via)`

Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information

CVPR 2023 · Weijie Su, Xizhou Zhu, Chenxin Tao, Lewei Lu, Bin Li, Gao Huang, Yu Qiao, Xiaogang Wang, Jie zhou, Jifeng Dai ·

To effectively exploit the potential of large-scale models, various pre-training strategies supported by massive data from different sources are proposed, including supervised pre-training, weakly-supervised pre-training, and self-supervised pre-training. It has been proved that combining multiple pre-training strategies and data from various modalities/sources can greatly boost the training of large-scale models. However, current works adopt a multi-stage pre-training system, where the complex pipeline may increase the uncertainty and instability of the pre-training. It is thus desirable that these strategies can be integrated in a single-stage manner. In this paper, we first propose a general multi-modal mutual information formula as a unified optimization target and demonstrate that all existing approaches are special cases of our framework. Under this unified perspective, we propose an all-in-one single-stage pre-training approach, named Maximizing Multi-modal Mutual Information Pre-training (M3I Pre-training). Our approach achieves better performance than previous pre-training methods on various vision benchmarks, including ImageNet classification, COCO object detection, LVIS long-tailed object detection, and ADE20k semantic segmentation. Notably, we successfully pre-train a billion-level parameter image backbone and achieve state-of-the-art performance on various benchmarks. Code shall be released at https://github.com/OpenGVLab/M3I-Pretraining.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

OpenGVLab/M3I-Pretraining official

Tasks

Add Remove

Image Classification

Long-tailed Object Detection

object-detection

Object Detection

Semantic Segmentation

Datasets

ImageNet

MS COCO

ADE20K

LVIS

LAION-400M

Results from the Paper

Edit

Ranked #2 on Semantic Segmentation on ADE20K (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semantic Segmentation	ADE20K	M3I Pre-training (InternImage-H)	Validation mIoU	62.9	# 2	Compare
Semantic Segmentation	ADE20K	M3I Pre-training (InternImage-H)	Params (M)	1310	# 3	Compare
Object Detection	COCO minival	M3I Pre-training (InternImage-H)	box AP	65.0	# 2	Compare
Object Detection	COCO test-dev	M3I Pre-training (InternImage-H)	box mAP	65.4	# 2	Compare
Image Classification	ImageNet	M3I Pre-training (InternImage-H)	Top 1 Accuracy	89.6%	# 24	Compare
Object Detection	LVIS v1.0 minival	M3I Pre-training (InternImage-H, single-scale)	box AP	65.8	# 2	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove