TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Open World Object Detection	COCO 2017 (Electronic, Indoor, Kitchen, Furniture)	ORE (MDef-DETR)	MAP	31.66	# 1
Open World Object Detection	COCO 2017 (Outdoor, Accessories, Appliance, Truck)	ORE (MDef-DETR)	A-OSE	5212	# 1
Open World Object Detection	COCO 2017 (Outdoor, Accessories, Appliance, Truck)	ORE (MDef-DETR)	WI	0.0251	# 2
Open World Object Detection	COCO 2017 (Outdoor, Accessories, Appliance, Truck)	ORE (MDef-DETR)	MAP	46.19	# 1
Open World Object Detection	COCO 2017 (Outdoor, Accessories, Appliance, Truck)	ORE (MDef-DETR)	Unknown Recall	49.54	# 1
Open World Object Detection	COCO 2017 (Sports, Food)	ORE (MDef-DETR)	WI	0.0179	# 2
Open World Object Detection	COCO 2017 (Sports, Food)	ORE (MDef-DETR)	A-OSE	4117	# 1
Open World Object Detection	COCO 2017 (Sports, Food)	ORE (MDef-DETR)	MAP	36.75	# 1
Open World Object Detection	COCO 2017 (Sports, Food)	ORE (MDef-DETR)	Unknown Recall	50.89	# 1
Object Proposal Generation	Comic2k	MDef-DETR	Average Recall	0.8982 (Off-the-shelf evaluation)	# 1
Class-agnostic Object Detection	Comic2k	MDef-DETR	AP50	57.72 (Comic Dataset is not included in training)	# 1
Class-agnostic Object Detection	Kitchen Scenes	MDef-DETR	AP50	45.43 (Kitchen Dataset is not included in training)	# 1
Object Proposal Generation	KITTI	MDef-DETR	Average Recall	0.6353 (Off-the-shelf evaluation)	# 1
Class-agnostic Object Detection	KITTI	MDef-DETR	AP50	48.22 (KITTI Dataset is not included in training)	# 1
Object Proposal Generation	MS COCO	MDef-DETR (Off-the-shelf evaluation)	Average Recall	0.6503	# 1
Class-agnostic Object Detection	MS COCO	MDef-DETR	AP50	43.64 (COCO dataset is not included in training)	# 1
Class-agnostic Object Detection	PASCAL VOC	MDef-DETR	AP50	68.59 (VOC Dataset is not included in training)	# 1
Object Detection	PASCAL VOC 10%	DETReg (MDef-DETR)	AP	58.78	# 1
Object Detection	PASCAL VOC 10%	DETReg (MDef-DETR)	AP50	80.46	# 1
Object Detection	PASCAL VOC 10%	DETReg (MDef-DETR)	AP75	65.65	# 1
Open World Object Detection	PASCAL VOC 2007	ORE (MDef-DETR)	WI	0.0474	# 2
Open World Object Detection	PASCAL VOC 2007	ORE (MDef-DETR)	A-OSE	7322	# 1
Open World Object Detection	PASCAL VOC 2007	ORE (MDef-DETR)	MAP	64.03	# 1
Open World Object Detection	PASCAL VOC 2007	ORE (MDef-DETR)	Unknown Recall	50.13	# 1
Object Detection	PASCAL VOC 2007	DETReg (MDef-DETR)	MAP	84.16%	# 3
Object Detection	PASCAL VOC 2007	DETReg (MDef-DETR)	AP50	84.16	# 1
Object Proposal Generation	PASCAL VOC 2012, 60 proposals per image	MDef-DETR	Average Recall	0.9126	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/open-world-object-detection-on-coco-2017-2)](https://paperswithcode.com/sota/open-world-object-detection-on-coco-2017-2?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/open-world-object-detection-on-coco-2017)](https://paperswithcode.com/sota/open-world-object-detection-on-coco-2017?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/open-world-object-detection-on-coco-2017-1)](https://paperswithcode.com/sota/open-world-object-detection-on-coco-2017-1?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/object-proposal-generation-on-comic2k)](https://paperswithcode.com/sota/object-proposal-generation-on-comic2k?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/class-agnostic-object-detection-on-comic2k)](https://paperswithcode.com/sota/class-agnostic-object-detection-on-comic2k?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/class-agnostic-object-detection-on-kitchen)](https://paperswithcode.com/sota/class-agnostic-object-detection-on-kitchen?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/object-proposal-generation-on-kitti)](https://paperswithcode.com/sota/object-proposal-generation-on-kitti?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/class-agnostic-object-detection-on-kitti)](https://paperswithcode.com/sota/class-agnostic-object-detection-on-kitti?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/object-proposal-generation-on-coco)](https://paperswithcode.com/sota/object-proposal-generation-on-coco?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/class-agnostic-object-detection-on-coco)](https://paperswithcode.com/sota/class-agnostic-object-detection-on-coco?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/class-agnostic-object-detection-on-pascal-voc)](https://paperswithcode.com/sota/class-agnostic-object-detection-on-pascal-voc?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/object-detection-on-pascal-voc-10)](https://paperswithcode.com/sota/object-detection-on-pascal-voc-10?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/open-world-object-detection-on-pascal-voc)](https://paperswithcode.com/sota/open-world-object-detection-on-pascal-voc?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/object-proposal-generation-on-pascal-voc-2012)](https://paperswithcode.com/sota/object-proposal-generation-on-pascal-voc-2012?p=multi-modal-transformers-excel-at-class)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-transformers-excel-at-class/object-detection-on-pascal-voc-2007)](https://paperswithcode.com/sota/object-detection-on-pascal-voc-2007?p=multi-modal-transformers-excel-at-class)`

Class-agnostic Object Detection with Multi-modal Transformer

22 Nov 2021 · Muhammad Maaz, Hanoona Rasheed, Salman Khan, Fahad Shahbaz Khan, Rao Muhammad Anwer, Ming-Hsuan Yang ·

What constitutes an object? This has been a long-standing question in computer vision. Towards this goal, numerous learning-free and learning-based approaches have been developed to score objectness. However, they generally do not scale well across new domains and novel objects. In this paper, we advocate that existing methods lack a top-down supervision signal governed by human-understandable semantics. For the first time in literature, we demonstrate that Multi-modal Vision Transformers (MViT) trained with aligned image-text pairs can effectively bridge this gap. Our extensive experiments across various domains and novel objects show the state-of-the-art performance of MViTs to localize generic objects in images. Based on the observation that existing MViTs do not include multi-scale feature processing and usually require longer training schedules, we develop an efficient MViT architecture using multi-scale deformable attention and late vision-language fusion. We show the significance of MViT proposals in a diverse range of applications including open-world object detection, salient and camouflage object detection, supervised and self-supervised detection tasks. Further, MViTs can adaptively generate proposals given a specific language query and thus offer enhanced interactability. Code: \url{https://git.io/J1HPY}.

PDF Abstract

Code

Add Remove Mark official

mmaaz60/mvits_for_class_agnostic_od official

294

Tasks

Add Remove

Class-agnostic Object Detection

Object

object-detection

Object Detection

Object Proposal Generation

Open World Object Detection

Datasets

MS COCO

KITTI

LVIS

DOTA

DUT-OMRON

PASCAL VOC

Objects365

PASCAL VOC 2007

COD10K

CAMO

Comic2k

Kitchen Scenes

Results from the Paper

Edit

Ranked #1 on Open World Object Detection on COCO 2017 (Outdoor, Accessories, Appliance, Truck)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Open World Object Detection	COCO 2017 (Electronic, Indoor, Kitchen, Furniture)	ORE (MDef-DETR)	MAP	31.66	# 1	Compare
Open World Object Detection	COCO 2017 (Outdoor, Accessories, Appliance, Truck)	ORE (MDef-DETR)	A-OSE	5212	# 1	Compare
			WI	0.0251	# 2	Compare
			MAP	46.19	# 1	Compare
			Unknown Recall	49.54	# 1	Compare
Open World Object Detection	COCO 2017 (Sports, Food)	ORE (MDef-DETR)	WI	0.0179	# 2	Compare
			A-OSE	4117	# 1	Compare
			MAP	36.75	# 1	Compare
			Unknown Recall	50.89	# 1	Compare
Object Proposal Generation	Comic2k	MDef-DETR	Average Recall	0.8982 (Off-the-shelf evaluation)	# 1	Compare
Class-agnostic Object Detection	Comic2k	MDef-DETR	AP50	57.72 (Comic Dataset is not included in training)	# 1	Compare
Class-agnostic Object Detection	Kitchen Scenes	MDef-DETR	AP50	45.43 (Kitchen Dataset is not included in training)	# 1	Compare
Object Proposal Generation	KITTI	MDef-DETR	Average Recall	0.6353 (Off-the-shelf evaluation)	# 1	Compare
Class-agnostic Object Detection	KITTI	MDef-DETR	AP50	48.22 (KITTI Dataset is not included in training)	# 1	Compare
Object Proposal Generation	MS COCO	MDef-DETR (Off-the-shelf evaluation)	Average Recall	0.6503	# 1	Compare
Class-agnostic Object Detection	MS COCO	MDef-DETR	AP50	43.64 (COCO dataset is not included in training)	# 1	Compare
Class-agnostic Object Detection	PASCAL VOC	MDef-DETR	AP50	68.59 (VOC Dataset is not included in training)	# 1	Compare
Object Detection	PASCAL VOC 10%	DETReg (MDef-DETR)	AP	58.78	# 1	Compare
			AP50	80.46	# 1	Compare
			AP75	65.65	# 1	Compare
Open World Object Detection	PASCAL VOC 2007	ORE (MDef-DETR)	WI	0.0474	# 2	Compare
			A-OSE	7322	# 1	Compare
			MAP	64.03	# 1	Compare
			Unknown Recall	50.13	# 1	Compare
Object Detection	PASCAL VOC 2007	DETReg (MDef-DETR)	MAP	84.16%	# 3	Compare
Object Detection	PASCAL VOC 2007	DETReg (MDef-DETR)	AP50	84.16	# 1	Compare
Object Proposal Generation	PASCAL VOC 2012, 60 proposals per image	MDef-DETR	Average Recall	0.9126	# 1	Compare

Methods

Add Remove

MAVL • MViT

Edit Social Preview

Class-agnostic Object Detection with Multi-modal Transformer

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove