TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinB	J&F	63.4	# 6
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinB	J	61.5	# 6
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinB	F	65.2	# 7
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinS	J&F	61.4	# 9
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinS	J	59.9	# 9
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinS	F	62.9	# 10
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinT	J&F	61.2	# 10
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinT	J	59.5	# 10
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinT	F	63.0	# 9
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-SwinL	J&F	63.4	# 6
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-SwinL	J	61.5	# 6
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-SwinL	F	65.3	# 6
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-ResNet101	J&F	58.5	# 12
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-ResNet101	J	57.3	# 12
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-ResNet101	F	59.8	# 12
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-ResNet50	J&F	57.8	# 13
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-ResNet50	J	56.5	# 13
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-ResNet50	F	59.0	# 13

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/html-hybrid-temporal-scale-multimodal/referring-video-object-segmentation-on-refer)](https://paperswithcode.com/sota/referring-video-object-segmentation-on-refer?p=html-hybrid-temporal-scale-multimodal)`

HTML: Hybrid Temporal-scale Multimodal Learning Framework for Referring Video Object Segmentation

ICCV 2023 · Mingfei Han, Yali Wang, Zhihui Li, Lina Yao, Xiaojun Chang, Yu Qiao ·

Referring Video Object Segmentation (RVOS) is to segment the object instance from a given video, according to the textual description of this object. However, in the open world, the object descriptions are often diversified in contents and flexible in lengths. This leads to the key difficulty in RVOS, i.e., various descriptions of different ob- jects are corresponding to different temporal scales in the video, which is ignored by most existing approaches with single stride of frame sampling. To tackle this problem, we propose a concise Hybrid Temporal-scale Multimodal Learning (HTML) framework, which can effectively align lingual and visual features to discover core object semantics in the video, by learning multimodal interaction hierarchically from different temporal scales. More specifically, we introduce a novel inter-scale multimodal perception module, where the language queries dynamically interact with visual features across temporal scales. It can effectively reduce complex object confusion by passing video context among different scales. Finally, we conduct extensive experiments on the widely used benchmarks, including Ref- Youtube-VOS, Ref-DAVIS17, A2D-Sentences and JHMDB- Sentences, where our HTML achieves state-of-the-art performance on all these datasets.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Object

Referring Video Object Segmentation

Semantic Segmentation

Video Object Segmentation

Video Semantic Segmentation

Datasets

DAVIS

Refer-YouTube-VOS

Results from the Paper

Add Remove

Ranked #6 on Referring Video Object Segmentation on Refer-YouTube-VOS (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinB	J&F	63.4	# 6	Compare
			J	61.5	# 6	Compare
			F	65.2	# 7	Compare
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinS	J&F	61.4	# 9	Compare
			J	59.9	# 9	Compare
			F	62.9	# 10	Compare
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-Video-SwinT	J&F	61.2	# 10	Compare
			J	59.5	# 10	Compare
			F	63.0	# 9	Compare
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-SwinL	J&F	63.4	# 6	Compare
			J	61.5	# 6	Compare
			F	65.3	# 6	Compare
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-ResNet101	J&F	58.5	# 12	Compare
			J	57.3	# 12	Compare
			F	59.8	# 12	Compare
Referring Video Object Segmentation	Refer-YouTube-VOS	HTML-ResNet50	J&F	57.8	# 13	Compare
			J	56.5	# 13	Compare
			F	59.0	# 13	Compare

Methods

Add Remove

ALIGN

Edit Social Preview

HTML: Hybrid Temporal-scale Multimodal Learning Framework for Referring Video Object Segmentation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove