TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Self-Supervised Image Classification	ImageNet	Mugs (VIT-L/16)	Top 1 Accuracy	82.1%	# 13
Self-Supervised Image Classification	ImageNet	Mugs (VIT-L/16)	Number of Params	307M	# 16
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-L/16)	Number of Params	307M	# 13
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-L/16)	Top 1 Accuracy	85.2%	# 25
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-B/16)	Number of Params	85M	# 39
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-B/16)	Top 1 Accuracy	84.3%	# 32
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-S/16)	Number of Params	21M	# 49
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-S/16)	Top 1 Accuracy	82.6%	# 50

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mugs-a-multi-granular-self-supervised/self-supervised-image-classification-on)](https://paperswithcode.com/sota/self-supervised-image-classification-on?p=mugs-a-multi-granular-self-supervised)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/mugs-a-multi-granular-self-supervised/self-supervised-image-classification-on-1)](https://paperswithcode.com/sota/self-supervised-image-classification-on-1?p=mugs-a-multi-granular-self-supervised)`

Mugs: A Multi-Granular Self-Supervised Learning Framework

27 Mar 2022 · Pan Zhou, Yichen Zhou, Chenyang Si, Weihao Yu, Teck Khim Ng, Shuicheng Yan ·

In self-supervised learning, multi-granular features are heavily desired though rarely investigated, as different downstream tasks (e.g., general and fine-grained classification) often require different or multi-granular features, e.g.~fine- or coarse-grained one or their mixture. In this work, for the first time, we propose an effective MUlti-Granular Self-supervised learning (Mugs) framework to explicitly learn multi-granular visual features. Mugs has three complementary granular supervisions: 1) an instance discrimination supervision (IDS), 2) a novel local-group discrimination supervision (LGDS), and 3) a group discrimination supervision (GDS). IDS distinguishes different instances to learn instance-level fine-grained features. LGDS aggregates features of an image and its neighbors into a local-group feature, and pulls local-group features from different crops of the same image together and push them away for others. It provides complementary instance supervision to IDS via an extra alignment on local neighbors, and scatters different local-groups separately to increase discriminability. Accordingly, it helps learn high-level fine-grained features at a local-group level. Finally, to prevent similar local-groups from being scattered randomly or far away, GDS brings similar samples close and thus pulls similar local-groups together, capturing coarse-grained features at a (semantic) group level. Consequently, Mugs can capture three granular features that often enjoy higher generality on diverse downstream tasks over single-granular features, e.g.~instance-level fine-grained features in contrastive learning. By only pretraining on ImageNet-1K, Mugs sets new SoTA linear probing accuracy 82.1$\%$ on ImageNet-1K and improves previous SoTA by $1.1\%$. It also surpasses SoTAs on other tasks, e.g. transfer learning, detection and segmentation.

PDF Abstract

Code

Add Remove Mark official

sail-sg/mugs official

Tasks

Add Remove

Contrastive Learning

Self-Supervised Image Classification

Self-Supervised Learning

Semantic Segmentation

Transfer Learning

Datasets

ImageNet

MS COCO

ADE20K

DAVIS 2017

Results from the Paper

Edit

Ranked #13 on Self-Supervised Image Classification on ImageNet

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Self-Supervised Image Classification	ImageNet	Mugs (VIT-L/16)	Top 1 Accuracy	82.1%	# 13	Compare
Self-Supervised Image Classification	ImageNet	Mugs (VIT-L/16)	Number of Params	307M	# 16	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-L/16)	Number of Params	307M	# 13	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-L/16)	Top 1 Accuracy	85.2%	# 25	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-B/16)	Number of Params	85M	# 39	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-B/16)	Top 1 Accuracy	84.3%	# 32	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-S/16)	Number of Params	21M	# 49	Compare
Self-Supervised Image Classification	ImageNet (finetuned)	Mugs (ViT-S/16)	Top 1 Accuracy	82.6%	# 50	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Mugs: A Multi-Granular Self-Supervised Learning Framework

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove