TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Image Classification	ImageNet	NASViT-A2	Top 1 Accuracy	80.5%	# 638
Image Classification	ImageNet	NASViT-A2	GFLOPs	0.421	# 46
Image Classification	ImageNet	NASViT-A1	Top 1 Accuracy	79.7%	# 685
Image Classification	ImageNet	NASViT-A1	GFLOPs	0.309	# 29
Image Classification	ImageNet	NASViT-A0	Top 1 Accuracy	78.2%	# 778
Image Classification	ImageNet	NASViT-A0	GFLOPs	0.208	# 15
Neural Architecture Search	ImageNet	NASViT-A5	Top-1 Error Rate	18.2	# 7
Neural Architecture Search	ImageNet	NASViT-A5	Accuracy	81.8	# 5
Neural Architecture Search	ImageNet	NASViT-A5	FLOPs	757M	# 135
Image Classification	ImageNet	NASViT-A5	Top 1 Accuracy	81.8%	# 553
Image Classification	ImageNet	NASViT-A5	GFLOPs	0.757	# 91
Image Classification	ImageNet	NASViT (supernet)	Top 1 Accuracy	82.9%	# 445
Image Classification	ImageNet	NASViT (supernet)	GFLOPs	1.881	# 144
Image Classification	ImageNet	NASViT-A3	Top 1 Accuracy	81.0%	# 614
Image Classification	ImageNet	NASViT-A3	GFLOPs	0.528	# 55
Image Classification	ImageNet	NASViT-A4	Top 1 Accuracy	81.4%	# 586
Image Classification	ImageNet	NASViT-A4	GFLOPs	0.591	# 62
Neural Architecture Search	ImageNet	NASViT-A4	Top-1 Error Rate	18.6	# 10
Neural Architecture Search	ImageNet	NASViT-A4	Accuracy	81.4	# 7
Neural Architecture Search	ImageNet	NASViT-A4	FLOPs	591M	# 128
Neural Architecture Search	ImageNet	NASViT-A3	Top-1 Error Rate	19.0	# 11
Neural Architecture Search	ImageNet	NASViT-A3	Accuracy	81.0	# 8
Neural Architecture Search	ImageNet	NASViT-A3	FLOPs	528M	# 125
Neural Architecture Search	ImageNet	NASViT-A2	Top-1 Error Rate	19.5	# 15
Neural Architecture Search	ImageNet	NASViT-A2	Accuracy	80.5	# 11
Neural Architecture Search	ImageNet	NASViT-A2	FLOPs	421M	# 120
Neural Architecture Search	ImageNet	NASViT-A1	Top-1 Error Rate	20.3	# 27
Neural Architecture Search	ImageNet	NASViT-A1	Accuracy	79.7	# 21
Neural Architecture Search	ImageNet	NASViT-A1	FLOPs	309M	# 114
Neural Architecture Search	ImageNet	NASViT-A0	Top-1 Error Rate	21.8	# 51
Neural Architecture Search	ImageNet	NASViT-A0	Accuracy	78.2	# 40
Neural Architecture Search	ImageNet	NASViT-A0	FLOPs	208M	# 111

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/nasvit-neural-architecture-search-for/neural-architecture-search-on-imagenet)](https://paperswithcode.com/sota/neural-architecture-search-on-imagenet?p=nasvit-neural-architecture-search-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/nasvit-neural-architecture-search-for/image-classification-on-imagenet)](https://paperswithcode.com/sota/image-classification-on-imagenet?p=nasvit-neural-architecture-search-for)`

NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict aware Supernet Training

ICLR 2022 · Chengyue Gong, Dilin Wang, Meng Li, Xinlei Chen, Zhicheng Yan, Yuandong Tian, Qiang Liu, Vikas Chandra ·

Designing accurate and efficient vision transformers (ViTs) is a highly important but challenging task. Supernet-based one-shot neural architecture search (NAS) enables fast architecture optimization and has achieved state-of-the-art (SOTA) results on convolutional neural networks (CNNs). However, directly applying the supernet-based NAS to optimize ViTs leads to poor performance - even worse compared to training single ViTs. In this work, we observe that the poor performance is due to a gradient conflict issue: the gradients of different sub-networks conflict with that of the supernet more severely in ViTs than CNNs, which leads to early saturation in training and inferior convergence. To alleviate this issue, we propose a series of techniques, including a gradient projection algorithm, a switchable layer scaling design, and a simplified data augmentation and regularization training recipe. The proposed techniques significantly improve the convergence and the performance of all sub-networks. Our discovered hybrid ViT model family, dubbed NASViT, achieves top-1 accuracy from 78.2% to 81.8% on ImageNet from 200M to 800M FLOPs, and outperforms all the prior art CNNs and ViTs, including AlphaNet and LeViT, etc. When transferred to semantic segmentation tasks, NASViTs also outperform previous backbones on both Cityscape and ADE20K datasets, achieving 73.2% and 37.9% mIoU with only 5G FLOPs, respectively.

PDF Abstract

Code

Add Remove Mark official

facebookresearch/NASViT official

Tasks

Add Remove

Data Augmentation

Image Classification

Neural Architecture Search

Semantic Segmentation

Datasets

ImageNet

Cityscapes

ADE20K

Results from the Paper

Add Remove

Ranked #7 on Neural Architecture Search on ImageNet

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Image Classification	ImageNet	NASViT-A2	Top 1 Accuracy	80.5%	# 638	Compare
Image Classification	ImageNet	NASViT-A2	GFLOPs	0.421	# 46	Compare
Image Classification	ImageNet	NASViT-A1	Top 1 Accuracy	79.7%	# 685	Compare
Image Classification	ImageNet	NASViT-A1	GFLOPs	0.309	# 29	Compare
Image Classification	ImageNet	NASViT-A0	Top 1 Accuracy	78.2%	# 778	Compare
Image Classification	ImageNet	NASViT-A0	GFLOPs	0.208	# 15	Compare
Neural Architecture Search	ImageNet	NASViT-A5	Top-1 Error Rate	18.2	# 7	Compare
			Accuracy	81.8	# 5	Compare
			FLOPs	757M	# 135	Compare
Image Classification	ImageNet	NASViT-A5	Top 1 Accuracy	81.8%	# 553	Compare
Image Classification	ImageNet	NASViT-A5	GFLOPs	0.757	# 91	Compare
Image Classification	ImageNet	NASViT (supernet)	Top 1 Accuracy	82.9%	# 445	Compare
Image Classification	ImageNet	NASViT (supernet)	GFLOPs	1.881	# 144	Compare
Image Classification	ImageNet	NASViT-A3	Top 1 Accuracy	81.0%	# 614	Compare
Image Classification	ImageNet	NASViT-A3	GFLOPs	0.528	# 55	Compare
Image Classification	ImageNet	NASViT-A4	Top 1 Accuracy	81.4%	# 586	Compare
Image Classification	ImageNet	NASViT-A4	GFLOPs	0.591	# 62	Compare
Neural Architecture Search	ImageNet	NASViT-A4	Top-1 Error Rate	18.6	# 10	Compare
			Accuracy	81.4	# 7	Compare
			FLOPs	591M	# 128	Compare
Neural Architecture Search	ImageNet	NASViT-A3	Top-1 Error Rate	19.0	# 11	Compare
			Accuracy	81.0	# 8	Compare
			FLOPs	528M	# 125	Compare
Neural Architecture Search	ImageNet	NASViT-A2	Top-1 Error Rate	19.5	# 15	Compare
			Accuracy	80.5	# 11	Compare
			FLOPs	421M	# 120	Compare
Neural Architecture Search	ImageNet	NASViT-A1	Top-1 Error Rate	20.3	# 27	Compare
			Accuracy	79.7	# 21	Compare
			FLOPs	309M	# 114	Compare
Neural Architecture Search	ImageNet	NASViT-A0	Top-1 Error Rate	21.8	# 51	Compare
			Accuracy	78.2	# 40	Compare
			FLOPs	208M	# 111	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

NASViT: Neural Architecture Search for Efficient Vision Transformers with Gradient Conflict aware Supernet Training

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove