TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Domain Generalization	ImageNet-R	LLE (ViT-H/14, MAE, Edge Aug)	Top-1 Error Rate	33.1	# 9
Domain Generalization	ImageNet-R	LLE (ViT-B/16, SWAG, Edge Aug)	Top-1 Error Rate	31.3	# 6
Domain Generalization	ImageNet-Sketch	LLE (ViT-H/14, MAE, Edge Aug)	Top-1 accuracy	53.39	# 6
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-B/16, SWAG (FT))	IN-W Gap	-2.50	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-B/16, SWAG (FT))	Carton Gap	+8	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ResNet-50)	IN-W Gap	-6.18	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ResNet-50)	Carton Gap	+10	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-H/14, MAE (FT))	IN-W Gap	-1.11	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-H/14, MAE (FT))	Carton Gap	+28	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-L/16, MAE (FT))	IN-W Gap	-1.74	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-L/16, MAE (FT))	Carton Gap	+12	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-B/16, MAE (FT))	IN-W Gap	-2.48	# 1
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-B/16, MAE (FT))	Carton Gap	+6	# 1
Image Classification	ObjectNet	LLE (ViT-H/14, MAE, Edge Aug)	Top-1 Accuracy	60.78	# 18
Out-of-Distribution Generalization	UrbanCars	LLE	BG Gap	-2.1	# 1
Out-of-Distribution Generalization	UrbanCars	LLE	CoObj Gap	-2.7	# 1
Out-of-Distribution Generalization	UrbanCars	LLE	BG+CoObj Gap	-5.9	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-whac-a-mole-dilemma-shortcuts-come-in/out-of-distribution-generalization-on-1)](https://paperswithcode.com/sota/out-of-distribution-generalization-on-1?p=a-whac-a-mole-dilemma-shortcuts-come-in)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-whac-a-mole-dilemma-shortcuts-come-in/out-of-distribution-generalization-on)](https://paperswithcode.com/sota/out-of-distribution-generalization-on?p=a-whac-a-mole-dilemma-shortcuts-come-in)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-whac-a-mole-dilemma-shortcuts-come-in/domain-generalization-on-imagenet-r)](https://paperswithcode.com/sota/domain-generalization-on-imagenet-r?p=a-whac-a-mole-dilemma-shortcuts-come-in)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-whac-a-mole-dilemma-shortcuts-come-in/domain-generalization-on-imagenet-sketch)](https://paperswithcode.com/sota/domain-generalization-on-imagenet-sketch?p=a-whac-a-mole-dilemma-shortcuts-come-in)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/a-whac-a-mole-dilemma-shortcuts-come-in/image-classification-on-objectnet)](https://paperswithcode.com/sota/image-classification-on-objectnet?p=a-whac-a-mole-dilemma-shortcuts-come-in)`

A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others

CVPR 2023 · Zhiheng Li, Ivan Evtimov, Albert Gordo, Caner Hazirbas, Tal Hassner, Cristian Canton Ferrer, Chenliang Xu, Mark Ibrahim ·

Machine learning models have been found to learn shortcuts -- unintended decision rules that are unable to generalize -- undermining models' reliability. Previous works address this problem under the tenuous assumption that only a single shortcut exists in the training data. Real-world images are rife with multiple visual cues from background to texture. Key to advancing the reliability of vision systems is understanding whether existing methods can overcome multiple shortcuts or struggle in a Whac-A-Mole game, i.e., where mitigating one shortcut amplifies reliance on others. To address this shortcoming, we propose two benchmarks: 1) UrbanCars, a dataset with precisely controlled spurious cues, and 2) ImageNet-W, an evaluation set based on ImageNet for watermark, a shortcut we discovered affects nearly every modern vision model. Along with texture and background, ImageNet-W allows us to study multiple shortcuts emerging from training on natural images. We find computer vision models, including large foundation models -- regardless of training set, architecture, and supervision -- struggle when multiple shortcuts are present. Even methods explicitly designed to combat shortcuts struggle in a Whac-A-Mole dilemma. To tackle this challenge, we propose Last Layer Ensemble, a simple-yet-effective method to mitigate multiple shortcuts without Whac-A-Mole behavior. Our results surface multi-shortcut mitigation as an overlooked challenge critical to advancing the reliability of vision systems. The datasets and code are released: https://github.com/facebookresearch/Whac-A-Mole.

PDF Abstract CVPR 2023 PDF CVPR 2023 Abstract

Code

Add Remove Mark official

facebookresearch/Whac-A-Mole official

Tasks

Add Remove

Domain Generalization

Image Classification

Out-of-Distribution Generalization

Datasets

Introduced in the Paper:

ImageNet-W

UrbanCars

Used in the Paper:

ImageNet

ImageNet-R

ImageNet-A

ImageNet-Sketch

ObjectNet

Stylized ImageNet ImageNet-9

Results from the Paper

Edit

Ranked #1 on Out-of-Distribution Generalization on ImageNet-W

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Domain Generalization	ImageNet-R	LLE (ViT-H/14, MAE, Edge Aug)	Top-1 Error Rate	33.1	# 9	Compare
Domain Generalization	ImageNet-R	LLE (ViT-B/16, SWAG, Edge Aug)	Top-1 Error Rate	31.3	# 6	Compare
Domain Generalization	ImageNet-Sketch	LLE (ViT-H/14, MAE, Edge Aug)	Top-1 accuracy	53.39	# 6	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-B/16, SWAG (FT))	IN-W Gap	-2.50	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-B/16, SWAG (FT))	Carton Gap	+8	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ResNet-50)	IN-W Gap	-6.18	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ResNet-50)	Carton Gap	+10	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-H/14, MAE (FT))	IN-W Gap	-1.11	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-H/14, MAE (FT))	Carton Gap	+28	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-L/16, MAE (FT))	IN-W Gap	-1.74	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-L/16, MAE (FT))	Carton Gap	+12	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-B/16, MAE (FT))	IN-W Gap	-2.48	# 1	Compare
Out-of-Distribution Generalization	ImageNet-W	LLE (ViT-B/16, MAE (FT))	Carton Gap	+6	# 1	Compare
Image Classification	ObjectNet	LLE (ViT-H/14, MAE, Edge Aug)	Top-1 Accuracy	60.78	# 18	Compare
Out-of-Distribution Generalization	UrbanCars	LLE	BG Gap	-2.1	# 1	Compare
			CoObj Gap	-2.7	# 1	Compare
			BG+CoObj Gap	-5.9	# 1	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

A Whac-A-Mole Dilemma: Shortcuts Come in Multiples Where Mitigating One Amplifies Others

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove