TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Referring Video Object Segmentation	MeViS	VLT+TC	J&F	35.5	# 3
Referring Video Object Segmentation	MeViS	VLT+TC	J	33.6	# 3
Referring Video Object Segmentation	MeViS	VLT+TC	F	37.3	# 3
Referring Expression Segmentation	RefCOCOg-val	VLT (Swin-B)	Overall IoU	63.49	# 9
Referring Expression Segmentation	RefCOCO testA	VLT	Overall IoU	75.96	# 8
Referring Expression Segmentation	RefCOCO+ testA	VLT	Overall IoU	68.43	# 9
Referring Expression Segmentation	RefCOCO testB	VLT	Overall IoU	69.60	# 7
Referring Expression Segmentation	RefCOCO+ test B	VLT	Overall IoU	56.92	# 9
Referring Expression Segmentation	RefCoCo val	VLT (Swin-B)	Overall IoU	72.96	# 8
Referring Expression Segmentation	RefCoCo val	VLT	Overall IoU	67.52	# 11
Referring Expression Segmentation	RefCoCo val	VLT	Overall IoU	72.96	# 11
Referring Expression Segmentation	RefCOCO+ val	VLT	Overall IoU	63.53	# 11
Referring Video Object Segmentation	Refer-YouTube-VOS	VLT	J&F	63.8	# 5
Referring Video Object Segmentation	Refer-YouTube-VOS	VLT	J	61.9	# 5
Referring Video Object Segmentation	Refer-YouTube-VOS	VLT	F	65.6	# 5
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	VLT	J&F	63.8	# 13
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	VLT	J	61.9	# 12
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	VLT	F	65.6	# 12

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-video-object-segmentation-on-mevis)](https://paperswithcode.com/sota/referring-video-object-segmentation-on-mevis?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-video-object-segmentation-on-refer)](https://paperswithcode.com/sota/referring-video-object-segmentation-on-refer?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refcoco-2)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-2?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refcoco-1)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-1?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refcoco-7)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-7?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refcocog)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcocog?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refcoco-4)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-4?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refcoco-5)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-5?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refcoco)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refcoco-3)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-3?p=vlt-vision-language-transformer-and-query)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/vlt-vision-language-transformer-and-query/referring-expression-segmentation-on-refer-1)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refer-1?p=vlt-vision-language-transformer-and-query)`

VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

28 Oct 2022 · Henghui Ding, Chang Liu, Suchen Wang, Xudong Jiang ·

We propose a Vision-Language Transformer (VLT) framework for referring segmentation to facilitate deep interactions among multi-modal information and enhance the holistic understanding to vision-language features. There are different ways to understand the dynamic emphasis of a language expression, especially when interacting with the image. However, the learned queries in existing transformer works are fixed after training, which cannot cope with the randomness and huge diversity of the language expressions. To address this issue, we propose a Query Generation Module, which dynamically produces multiple sets of input-specific queries to represent the diverse comprehensions of language expression. To find the best among these diverse comprehensions, so as to generate a better mask, we propose a Query Balance Module to selectively fuse the corresponding responses of the set of queries. Furthermore, to enhance the model's ability in dealing with diverse language expressions, we consider inter-sample learning to explicitly endow the model with knowledge of understanding different language expressions to the same object. We introduce masked contrastive learning to narrow down the features of different expressions for the same target object while distinguishing the features of different objects. The proposed approach is lightweight and achieves new state-of-the-art referring segmentation results consistently on five datasets.

PDF Abstract

Code

Add Remove Mark official

henghuiding/Vision-Language-Transfo… official

334

Tasks

Add Remove

Referring Expression Segmentation

Referring Video Object Segmentation

Video Object Segmentation

Datasets

RefCOCO

Refer-YouTube-VOS Google Refexp

MeViS

Results from the Paper

Add Remove

Ranked #3 on Referring Video Object Segmentation on MeViS

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Referring Video Object Segmentation	MeViS	VLT+TC	J&F	35.5	# 3	Compare
			J	33.6	# 3	Compare
			F	37.3	# 3	Compare
Referring Expression Segmentation	RefCOCOg-val	VLT (Swin-B)	Overall IoU	63.49	# 9	Compare
Referring Expression Segmentation	RefCOCO testA	VLT	Overall IoU	75.96	# 8	Compare
Referring Expression Segmentation	RefCOCO+ testA	VLT	Overall IoU	68.43	# 9	Compare
Referring Expression Segmentation	RefCOCO testB	VLT	Overall IoU	69.60	# 7	Compare
Referring Expression Segmentation	RefCOCO+ test B	VLT	Overall IoU	56.92	# 9	Compare
Referring Expression Segmentation	RefCoCo val	VLT (Swin-B)	Overall IoU	72.96	# 8	Compare
Referring Expression Segmentation	RefCoCo val	VLT	Overall IoU	67.52	# 11	Compare
Referring Expression Segmentation	RefCoCo val	VLT	Overall IoU	72.96	# 11	Compare
Referring Expression Segmentation	RefCOCO+ val	VLT	Overall IoU	63.53	# 11	Compare
Referring Video Object Segmentation	Refer-YouTube-VOS	VLT	J&F	63.8	# 5	Compare
			J	61.9	# 5	Compare
			F	65.6	# 5	Compare
Referring Expression Segmentation	Refer-YouTube-VOS (2021 public validation)	VLT	J&F	63.8	# 13	Compare
			J	61.9	# 12	Compare
			F	65.6	# 12	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Contrastive Learning • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

VLT: Vision-Language Transformer and Query Generation for Referring Segmentation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove