TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	Precision@0.5	0.831	# 3
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	Precision@0.9	0.212	# 3
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	IoU overall	0.786	# 3
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	IoU mean	0.703	# 3
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	Precision@0.6	0.804	# 3
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	Precision@0.7	0.741	# 3
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	Precision@0.8	0.579	# 3
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	AP	0.550	# 3
Referring Expression Segmentation	DAVIS 2017 (val)	ReferFormer	J&F 1st frame	61.1	# 5
Referring Video Object Segmentation	MeViS	ReferFormer	J&F	31.0	# 4
Referring Video Object Segmentation	MeViS	ReferFormer	J	29.8	# 4
Referring Video Object Segmentation	MeViS	ReferFormer	F	32.2	# 4
Referring Video Object Segmentation	Refer-YouTube-VOS	ReferFormer (Large)	J&F	62.9	# 8
Referring Video Object Segmentation	Refer-YouTube-VOS	ReferFormer (Large)	J	61.3	# 8
Referring Video Object Segmentation	Refer-YouTube-VOS	ReferFormer (Large)	F	64.6	# 8
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	ReferFormer (ResNet-50)	J&F	55.6	# 20
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	ReferFormer (ResNet-50)	J	54.8	# 18
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	ReferFormer (ResNet-50)	F	56.6	# 19
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	ReferFormer (ResNet-101)	J&F	57.3	# 18
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	ReferFormer (ResNet-101)	J	56.1	# 17
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	ReferFormer (ResNet-101)	F	58.4	# 17

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-as-queries-for-referring-video/referring-expression-segmentation-on-a2d)](https://paperswithcode.com/sota/referring-expression-segmentation-on-a2d?p=language-as-queries-for-referring-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-as-queries-for-referring-video/referring-video-object-segmentation-on-mevis)](https://paperswithcode.com/sota/referring-video-object-segmentation-on-mevis?p=language-as-queries-for-referring-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-as-queries-for-referring-video/referring-expression-segmentation-on-davis)](https://paperswithcode.com/sota/referring-expression-segmentation-on-davis?p=language-as-queries-for-referring-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-as-queries-for-referring-video/referring-video-object-segmentation-on-refer)](https://paperswithcode.com/sota/referring-video-object-segmentation-on-refer?p=language-as-queries-for-referring-video)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/language-as-queries-for-referring-video/referring-expression-segmentation-on-refer-1)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refer-1?p=language-as-queries-for-referring-video)`

Language as Queries for Referring Video Object Segmentation

CVPR 2022 · Jiannan Wu, Yi Jiang, Peize Sun, Zehuan Yuan, Ping Luo ·

Referring video object segmentation (R-VOS) is an emerging cross-modal task that aims to segment the target object referred by a language expression in all video frames. In this work, we propose a simple and unified framework built upon Transformer, termed ReferFormer. It views the language as queries and directly attends to the most relevant regions in the video frames. Concretely, we introduce a small set of object queries conditioned on the language as the input to the Transformer. In this manner, all the queries are obligated to find the referred objects only. They are eventually transformed into dynamic kernels which capture the crucial object-level information, and play the role of convolution filters to generate the segmentation masks from feature maps. The object tracking is achieved naturally by linking the corresponding queries across frames. This mechanism greatly simplifies the pipeline and the end-to-end framework is significantly different from the previous methods. Extensive experiments on Ref-Youtube-VOS, Ref-DAVIS17, A2D-Sentences and JHMDB-Sentences show the effectiveness of ReferFormer. On Ref-Youtube-VOS, Refer-Former achieves 55.6J&F with a ResNet-50 backbone without bells and whistles, which exceeds the previous state-of-the-art performance by 8.4 points. In addition, with the strong Swin-Large backbone, ReferFormer achieves the best J&F of 64.2 among all existing methods. Moreover, we show the impressive results of 55.0 mAP and 43.7 mAP on A2D-Sentences andJHMDB-Sentences respectively, which significantly outperforms the previous methods by a large margin. Code is publicly available at https://github.com/wjn922/ReferFormer.

PDF Abstract CVPR 2022 PDF CVPR 2022 Abstract

Code

Add Remove Mark official

wjn922/referformer official

308

Tasks

Add Remove

Object

Object Tracking

Referring Expression Segmentation

Referring Video Object Segmentation

Semantic Segmentation

Video Instance Segmentation

Video Object Segmentation

Video Semantic Segmentation

Datasets

MS COCO

DAVIS

RefCOCO

DAVIS 2017

JHMDB

Referring Expressions for DAVIS 2016 & 2017

Refer-YouTube-VOS

A2D Sentences

MeViS

Results from the Paper

Edit

Ranked #3 on Referring Expression Segmentation on A2D Sentences (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Referring Expression Segmentation	A2D Sentences	ReferFormer (Video-Swin-B)	Precision@0.5	0.831	# 3	Compare
			Precision@0.9	0.212	# 3	Compare
			IoU overall	0.786	# 3	Compare
			IoU mean	0.703	# 3	Compare
			Precision@0.6	0.804	# 3	Compare
			Precision@0.7	0.741	# 3	Compare
			Precision@0.8	0.579	# 3	Compare
			AP	0.550	# 3	Compare
Referring Expression Segmentation	DAVIS 2017 (val)	ReferFormer	J&F 1st frame	61.1	# 5	Compare
Referring Video Object Segmentation	MeViS	ReferFormer	J&F	31.0	# 4	Compare
			J	29.8	# 4	Compare
			F	32.2	# 4	Compare
Referring Video Object Segmentation	Refer-YouTube-VOS	ReferFormer (Large)	J&F	62.9	# 8	Compare
			J	61.3	# 8	Compare
			F	64.6	# 8	Compare
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	ReferFormer (ResNet-50)	J&F	55.6	# 20	Compare
			J	54.8	# 18	Compare
			F	56.6	# 19	Compare
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	ReferFormer (ResNet-101)	J&F	57.3	# 18	Compare
			J	56.1	# 17	Compare
			F	58.4	# 17	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Convolution • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

Language as Queries for Referring Video Object Segmentation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove