TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Generalized Referring Expression Segmentation	gRefCOCO	LAVT	gIoU	58.40	# 3
Generalized Referring Expression Segmentation	gRefCOCO	LAVT	cIoU	57.64	# 2
Referring Expression Segmentation	RefCOCOg-test	LAVT (Swin-B)	Overall IoU	62.09	# 7
Referring Expression Segmentation	RefCOCOg-val	LAVT	Overall IoU	61.24	# 10
Referring Expression Segmentation	RefCOCO testA	LAVT	Overall IoU	75.82	# 10
Referring Expression Segmentation	RefCOCO testA	LAVT	Mean IoU	76.89	# 3
Referring Expression Segmentation	RefCOCO+ testA	LAVT	Overall IoU	68.38	# 10
Referring Expression Segmentation	RefCOCO+ test B	LAVT	Overall IoU	55.1	# 11
Referring Expression Segmentation	RefCoCo val	LAVT	Overall IoU	72.73	# 9
Referring Expression Segmentation	RefCOCO+ val	LAVT	Overall IoU	62.14	# 14

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lavt-language-aware-vision-transformer-for/generalized-referring-expression-segmentation)](https://paperswithcode.com/sota/generalized-referring-expression-segmentation?p=lavt-language-aware-vision-transformer-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lavt-language-aware-vision-transformer-for/referring-expression-segmentation-on-refcocog-1)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcocog-1?p=lavt-language-aware-vision-transformer-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lavt-language-aware-vision-transformer-for/referring-expression-segmentation-on-refcoco-7)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-7?p=lavt-language-aware-vision-transformer-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lavt-language-aware-vision-transformer-for/referring-expression-segmentation-on-refcocog)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcocog?p=lavt-language-aware-vision-transformer-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lavt-language-aware-vision-transformer-for/referring-expression-segmentation-on-refcoco-1)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-1?p=lavt-language-aware-vision-transformer-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lavt-language-aware-vision-transformer-for/referring-expression-segmentation-on-refcoco-4)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-4?p=lavt-language-aware-vision-transformer-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lavt-language-aware-vision-transformer-for/referring-expression-segmentation-on-refcoco-5)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-5?p=lavt-language-aware-vision-transformer-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/lavt-language-aware-vision-transformer-for/referring-expression-segmentation-on-refcoco-3)](https://paperswithcode.com/sota/referring-expression-segmentation-on-refcoco-3?p=lavt-language-aware-vision-transformer-for)`

LAVT: Language-Aware Vision Transformer for Referring Image Segmentation

CVPR 2022 · Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip H. S. Torr ·

Referring image segmentation is a fundamental vision-language task that aims to segment out an object referred to by a natural language expression from an image. One of the key challenges behind this task is leveraging the referring expression for highlighting relevant positions in the image. A paradigm for tackling this problem is to leverage a powerful vision-language ("cross-modal") decoder to fuse features independently extracted from a vision encoder and a language encoder. Recent methods have made remarkable advancements in this paradigm by exploiting Transformers as cross-modal decoders, concurrent to the Transformer's overwhelming success in many other vision-language tasks. Adopting a different approach in this work, we show that significantly better cross-modal alignments can be achieved through the early fusion of linguistic and visual features in intermediate layers of a vision Transformer encoder network. By conducting cross-modal feature fusion in the visual feature encoding stage, we can leverage the well-proven correlation modeling power of a Transformer encoder for excavating helpful multi-modal context. This way, accurate segmentation results are readily harvested with a light-weight mask predictor. Without bells and whistles, our method surpasses the previous state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by large margins.

PDF Abstract CVPR 2022 PDF CVPR 2022 Abstract

Code

Add Remove Mark official

yz93/lavt-ris official

169

Tasks

Add Remove

Generalized Referring Expression Segmentation

Image Segmentation

Referring Expression

Referring Expression Segmentation

Semantic Segmentation

Datasets

MS COCO

RefCOCO Google Refexp

gRefCOCO

Results from the Paper

Edit

Ranked #3 on Generalized Referring Expression Segmentation on gRefCOCO

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Generalized Referring Expression Segmentation	gRefCOCO	LAVT	gIoU	58.40	# 3	Compare
Generalized Referring Expression Segmentation	gRefCOCO	LAVT	cIoU	57.64	# 2	Compare
Referring Expression Segmentation	RefCOCOg-test	LAVT (Swin-B)	Overall IoU	62.09	# 7	Compare
Referring Expression Segmentation	RefCOCOg-val	LAVT	Overall IoU	61.24	# 10	Compare
Referring Expression Segmentation	RefCOCO testA	LAVT	Overall IoU	75.82	# 10	Compare
Referring Expression Segmentation	RefCOCO testA	LAVT	Mean IoU	76.89	# 3	Compare
Referring Expression Segmentation	RefCOCO+ testA	LAVT	Overall IoU	68.38	# 10	Compare
Referring Expression Segmentation	RefCOCO+ test B	LAVT	Overall IoU	55.1	# 11	Compare
Referring Expression Segmentation	RefCoCo val	LAVT	Overall IoU	72.73	# 9	Compare
Referring Expression Segmentation	RefCOCO+ val	LAVT	Overall IoU	62.14	# 14	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • Vision Transformer

Edit Social Preview

LAVT: Language-Aware Vision Transformer for Referring Image Segmentation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove