TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Video Instance Segmentation	BDD100K val	PCAN	mMOTSA	27.4	# 1
Multiple Object Track and Segmentation	BDD100K val	PCAN	mMOTSA	27.4	# 1
Multi-Object Tracking and Segmentation	BDD100K val	PCAN	mMOTSA	27.4	# 3
Multi-Object Tracking and Segmentation	BDD100K val	QDTrack-mots-fix	mMOTSA	23.5	# 4
Video Instance Segmentation	BDD100K val	QDTrack-mots-fix	mMOTSA	23.5	# 2
Multi-Object Tracking and Segmentation	BDD100K val	QDTrack-mots	mMOTSA	22.5	# 5
Video Instance Segmentation	BDD100K val	QDTrack-mots	mMOTSA	22.5	# 3
Multi-Object Tracking and Segmentation	BDD100K val	STEm-Seg	mMOTSA	12.2	# 7
Video Instance Segmentation	BDD100K val	STEm-Seg	mMOTSA	12.2	# 5
Video Instance Segmentation	BDD100K val	MaskTrackRCNN	mMOTSA	12.3	# 4
Multi-Object Tracking and Segmentation	BDD100K val	MaskTrackRCNN	mMOTSA	12.3	# 6
Multi-Object Tracking and Segmentation	BDD100K val	SortIoU	mMOTSA	10.3	# 8
Video Instance Segmentation	BDD100K val	SortIoU	mMOTSA	10.3	# 6
Video Instance Segmentation	YouTube-VIS validation	PCAN(ResNet-50)	mask AP	36.1	# 39
Video Instance Segmentation	YouTube-VIS validation	PCAN(ResNet-50)	AP50	54.9	# 40
Video Instance Segmentation	YouTube-VIS validation	PCAN(ResNet-50)	AP75	39.4	# 33
Video Instance Segmentation	YouTube-VIS validation	PCAN(ResNet-50)	AR1	36.3	# 31
Video Instance Segmentation	YouTube-VIS validation	PCAN(ResNet-50)	AR10	41.6	# 33

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/prototypical-cross-attention-networks-for/video-instance-segmentation-on-bdd100k-val)](https://paperswithcode.com/sota/video-instance-segmentation-on-bdd100k-val?p=prototypical-cross-attention-networks-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/prototypical-cross-attention-networks-for/multiple-object-track-and-segmentation-on-2)](https://paperswithcode.com/sota/multiple-object-track-and-segmentation-on-2?p=prototypical-cross-attention-networks-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/prototypical-cross-attention-networks-for/multi-object-tracking-and-segmentation-on-3)](https://paperswithcode.com/sota/multi-object-tracking-and-segmentation-on-3?p=prototypical-cross-attention-networks-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/prototypical-cross-attention-networks-for/video-instance-segmentation-on-youtube-vis-1)](https://paperswithcode.com/sota/video-instance-segmentation-on-youtube-vis-1?p=prototypical-cross-attention-networks-for)`

Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation

NeurIPS 2021 · Lei Ke, Xia Li, Martin Danelljan, Yu-Wing Tai, Chi-Keung Tang, Fisher Yu ·

Multiple object tracking and segmentation requires detecting, tracking, and segmenting objects belonging to a set of given classes. Most approaches only exploit the temporal dimension to address the association problem, while relying on single frame predictions for the segmentation mask itself. We propose Prototypical Cross-Attention Network (PCAN), capable of leveraging rich spatio-temporal information for online multiple object tracking and segmentation. PCAN first distills a space-time memory into a set of prototypes and then employs cross-attention to retrieve rich information from the past frames. To segment each object, PCAN adopts a prototypical appearance module to learn a set of contrastive foreground and background prototypes, which are then propagated over time. Extensive experiments demonstrate that PCAN outperforms current video instance tracking and segmentation competition winners on both Youtube-VIS and BDD100K datasets, and shows efficacy to both one-stage and two-stage segmentation frameworks. Code and video resources are available at http://vis.xyz/pub/pcan.

PDF Abstract NeurIPS 2021 PDF NeurIPS 2021 Abstract

Code

Add Remove Mark official

SysCV/pcan official

359

Tasks

Add Remove

Multi-Object Tracking and Segmentation

Multiple Object Track and Segmentation

Multiple Object Tracking

Object

Object Tracking

Segmentation

Video Instance Segmentation

Datasets

BDD100K

YouTube-VIS 2019

Results from the Paper

Edit

Ranked #1 on Video Instance Segmentation on BDD100K val

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Video Instance Segmentation	BDD100K val	PCAN	mMOTSA	27.4	# 1	Compare
Multiple Object Track and Segmentation	BDD100K val	PCAN	mMOTSA	27.4	# 1	Compare
Multi-Object Tracking and Segmentation	BDD100K val	PCAN	mMOTSA	27.4	# 3	Compare
Multi-Object Tracking and Segmentation	BDD100K val	QDTrack-mots-fix	mMOTSA	23.5	# 4	Compare
Video Instance Segmentation	BDD100K val	QDTrack-mots-fix	mMOTSA	23.5	# 2	Compare
Multi-Object Tracking and Segmentation	BDD100K val	QDTrack-mots	mMOTSA	22.5	# 5	Compare
Video Instance Segmentation	BDD100K val	QDTrack-mots	mMOTSA	22.5	# 3	Compare
Multi-Object Tracking and Segmentation	BDD100K val	STEm-Seg	mMOTSA	12.2	# 7	Compare
Video Instance Segmentation	BDD100K val	STEm-Seg	mMOTSA	12.2	# 5	Compare
Video Instance Segmentation	BDD100K val	MaskTrackRCNN	mMOTSA	12.3	# 4	Compare
Multi-Object Tracking and Segmentation	BDD100K val	MaskTrackRCNN	mMOTSA	12.3	# 6	Compare
Multi-Object Tracking and Segmentation	BDD100K val	SortIoU	mMOTSA	10.3	# 8	Compare
Video Instance Segmentation	BDD100K val	SortIoU	mMOTSA	10.3	# 6	Compare
Video Instance Segmentation	YouTube-VIS validation	PCAN(ResNet-50)	mask AP	36.1	# 39	Compare
			AP50	54.9	# 40	Compare
			AP75	39.4	# 33	Compare
			AR1	36.3	# 31	Compare
			AR10	41.6	# 33	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Prototypical Cross-Attention Networks for Multiple Object Tracking and Segmentation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove