TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	Jaccard (Mean)	88.7	# 31
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	F-measure (Mean)	91.1	# 29
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	J&F	89.9	# 31
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	Speed (FPS)	29.6	# 13
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-S	Jaccard (Mean)	88.6	# 35
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-S	F-measure (Mean)	90.2	# 35
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-S	J&F	89.4	# 33
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-S	Speed (FPS)	40.0	# 9
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	Jaccard (Mean)	89.6	# 24
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	F-measure (Mean)	91.1	# 29
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	J&F	90.4	# 29
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	Speed (FPS)	18.7	# 23
Semi-Supervised Video Object Segmentation	DAVIS 2016	R50-AOT-L	Jaccard (Mean)	90.1	# 21
Semi-Supervised Video Object Segmentation	DAVIS 2016	R50-AOT-L	F-measure (Mean)	92.1	# 24
Semi-Supervised Video Object Segmentation	DAVIS 2016	R50-AOT-L	J&F	91.1	# 21
Semi-Supervised Video Object Segmentation	DAVIS 2016	R50-AOT-L	Speed (FPS)	18.0	# 24
Semi-Supervised Video Object Segmentation	DAVIS 2016	SwinB-AOT-L	Jaccard (Mean)	90.7	# 8
Semi-Supervised Video Object Segmentation	DAVIS 2016	SwinB-AOT-L	F-measure (Mean)	93.3	# 14
Semi-Supervised Video Object Segmentation	DAVIS 2016	SwinB-AOT-L	J&F	92.0	# 11
Semi-Supervised Video Object Segmentation	DAVIS 2016	SwinB-AOT-L	Speed (FPS)	12.1	# 28
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-T	Jaccard (Mean)	86.1	# 47
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-T	F-measure (Mean)	87.4	# 46
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-T	J&F	86.8	# 44
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-T	Speed (FPS)	51.4	# 6
Video Object Segmentation	DAVIS 2017 (test-dev)	AOT	Jaccard	75.9	# 2
Video Object Segmentation	DAVIS 2017 (test-dev)	AOT	F-measure	83.3	# 2
Video Object Segmentation	DAVIS 2017 (test-dev)	AOT	Mean Jaccard & F-Measure	79.6	# 2
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-T	J&F	72.0	# 38
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-T	Jaccard (Mean)	68.3	# 38
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-T	F-measure (Mean)	75.7	# 38
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-T	FPS	51.4	# 2
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	SwinB-AOT-L	J&F	81.2	# 13
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	SwinB-AOT-L	Jaccard (Mean)	77.3	# 16
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	SwinB-AOT-L	F-measure (Mean)	85.1	# 13
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	SwinB-AOT-L	FPS	12.1	# 18
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	R50-AOT-L	J&F	79.6	# 21
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	R50-AOT-L	Jaccard (Mean)	75.9	# 21
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	R50-AOT-L	F-measure (Mean)	83.3	# 21
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	R50-AOT-L	FPS	18.0	# 13
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-S	J&F	73.9	# 35
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-S	Jaccard (Mean)	70.3	# 35
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-S	F-measure (Mean)	77.5	# 35
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-S	FPS	40.0	# 5
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-B	J&F	75.5	# 31
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-B	Jaccard (Mean)	71.6	# 33
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-B	F-measure (Mean)	79.3	# 31
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-B	FPS	29.6	# 7
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-L	J&F	78.3	# 24
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-L	Jaccard (Mean)	74.3	# 26
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-L	F-measure (Mean)	82.3	# 24
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-L	FPS	18.7	# 12
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-L	Jaccard (Mean)	81.1	# 30
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-L	F-measure (Mean)	86.4	# 30
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-L	J&F	83.8	# 29
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-L	Speed (FPS)	18.7	# 21
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-L	Params(M)	8.3	# 6
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-T	Jaccard (Mean)	77.4	# 42
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-T	F-measure (Mean)	82.3	# 43
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-T	J&F	79.9	# 44
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-T	Speed (FPS)	51.4	# 4
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-T	Params(M)	5.7	# 1
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-S	Jaccard (Mean)	78.7	# 39
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-S	F-measure (Mean)	83.9	# 40
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-S	J&F	81.3	# 40
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-S	Speed (FPS)	40.0	# 8
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-S	Params(M)	7.0	# 2
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-B	Jaccard (Mean)	79.7	# 35
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-B	F-measure (Mean)	85.2	# 36
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-B	J&F	82.5	# 35
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-B	Speed (FPS)	29.6	# 10
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-B	Params(M)	8.3	# 6
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	R50-AOT-L	Jaccard (Mean)	82.3	# 21
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	R50-AOT-L	F-measure (Mean)	87.5	# 25
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	R50-AOT-L	J&F	84.9	# 24
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	R50-AOT-L	Speed (FPS)	18.0	# 22
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	R50-AOT-L	Params(M)	14.9	# 13
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	SwinB-AOT-L	Jaccard (Mean)	82.4	# 20
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	SwinB-AOT-L	F-measure (Mean)	88.4	# 21
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	SwinB-AOT-L	J&F	85.4	# 19
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	SwinB-AOT-L	Speed (FPS)	12.1	# 26
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	SwinB-AOT-L	Params(M)	65.4	# 18
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	AOT-S	FPS	40.0	# 3
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	AOT-S	D17 val (G)	79.2	# 3
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	AOT-S	D17 val (J)	76.4	# 3
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	AOT-S	D17 val (F)	82.0	# 3
Semi-Supervised Video Object Segmentation	MOSE	AOT	J&F	57.2	# 13
Semi-Supervised Video Object Segmentation	MOSE	AOT	J	53.1	# 13
Semi-Supervised Video Object Segmentation	MOSE	AOT	F	61.3	# 13
Semi-Supervised Video Object Segmentation	VOT2020	AOT-B	EAO	0.541	# 12
Semi-Supervised Video Object Segmentation	VOT2020	AOT-B	EAO (real-time)	0.533	# 8
Semi-Supervised Video Object Segmentation	VOT2020	R50-AOT-L	EAO	0.569	# 10
Semi-Supervised Video Object Segmentation	VOT2020	R50-AOT-L	EAO (real-time)	0.540	# 7
Semi-Supervised Video Object Segmentation	VOT2020	SwinB-AOT-L	EAO	0.586	# 6
Semi-Supervised Video Object Segmentation	VOT2020	SwinB-AOT-L	EAO (real-time)	0.523	# 9
Semi-Supervised Video Object Segmentation	VOT2020	AOT-T	EAO	0.435	# 17
Semi-Supervised Video Object Segmentation	VOT2020	AOT-T	EAO (real-time)	0.433	# 13
Semi-Supervised Video Object Segmentation	VOT2020	AOT-S	EAO	0.512	# 14
Semi-Supervised Video Object Segmentation	VOT2020	AOT-S	EAO (real-time)	0.499	# 10
Semi-Supervised Video Object Segmentation	VOT2020	AOT-L	EAO	0.574	# 8
Semi-Supervised Video Object Segmentation	VOT2020	AOT-L	EAO (real-time)	0.560	# 2
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L (all frames)	F-Measure (Seen)	88.8	# 16
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L (all frames)	F-Measure (Unseen)	87.1	# 17
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L (all frames)	Overall	84.5	# 16
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L (all frames)	Speed (FPS)	6.5	# 21
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L (all frames)	Jaccard (Seen)	83.7	# 16
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L (all frames)	Jaccard (Unseen)	78.4	# 19
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L (all frames)	Params(M)	8.3	# 6
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L (all frames)	F-Measure (Seen)	89.5	# 11
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L (all frames)	F-Measure (Unseen)	88.2	# 9
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L (all frames)	Overall	85.5	# 10
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L (all frames)	Speed (FPS)	6.4	# 22
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L (all frames)	Jaccard (Seen)	84.5	# 11
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L (all frames)	Jaccard (Unseen)	79.6	# 9
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L (all frames)	Params(M)	14.9	# 14
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L (all frames)	F-Measure (Seen)	90.1	# 6
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L (all frames)	F-Measure (Unseen)	86.9	# 19
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L (all frames)	Overall	85.1	# 12
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L (all frames)	Speed (FPS)	5.2	# 23
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L (all frames)	Jaccard (Seen)	85.1	# 6
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L (all frames)	Jaccard (Unseen)	78.4	# 19
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L (all frames)	Params(M)	65.4	# 19
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T (all frames)	F-Measure (Seen)	84.7	# 39
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T (all frames)	F-Measure (Unseen)	83.5	# 35
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T (all frames)	Overall	80.9	# 39
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T (all frames)	Speed (FPS)	41.0	# 5
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T (all frames)	Jaccard (Seen)	80.0	# 40
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T (all frames)	Jaccard (Unseen)	75.2	# 39
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T (all frames)	Params(M)	5.3	# 1
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S (all frames)	F-Measure (Seen)	87.0	# 30
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S (all frames)	F-Measure (Unseen)	85.7	# 29
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S (all frames)	Overall	83.0	# 29
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S (all frames)	Speed (FPS)	27.1	# 7
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S (all frames)	Jaccard (Seen)	82.2	# 29
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S (all frames)	Jaccard (Unseen)	77.3	# 29
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S (all frames)	Params(M)	7.9	# 4
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B (all frames)	F-Measure (Seen)	88.5	# 18
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B (all frames)	F-Measure (Unseen)	86.5	# 23
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B (all frames)	Overall	84.1	# 22
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B (all frames)	Speed (FPS)	20.5	# 14
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B (all frames)	Jaccard (Seen)	83.6	# 19
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B (all frames)	Jaccard (Unseen)	78.0	# 24
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B (all frames)	Params(M)	8.3	# 6
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T	F-Measure (Seen)	84.5	# 41
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T	F-Measure (Unseen)	82.2	# 41
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T	Overall	80.2	# 40
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T	Speed (FPS)	41.0	# 5
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T	Jaccard (Seen)	80.1	# 39
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T	Jaccard (Unseen)	74.0	# 42
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T	Params(M)	5.3	# 1
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S	F-Measure (Seen)	86.7	# 32
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S	F-Measure (Unseen)	85.0	# 32
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S	Overall	82.6	# 31
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S	Speed (FPS)	27.1	# 7
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S	Jaccard (Seen)	82.0	# 32
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S	Jaccard (Unseen)	76.6	# 33
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S	Params(M)	7.9	# 4
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B	F-Measure (Seen)	87.5	# 28
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B	F-Measure (Unseen)	86.0	# 28
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B	Overall	83.5	# 28
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B	Speed (FPS)	20.5	# 14
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B	Jaccard (Seen)	82.6	# 28
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B	Jaccard (Unseen)	77.7	# 27
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B	Params(M)	8.3	# 6
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L	F-Measure (Seen)	88.5	# 18
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L	F-Measure (Unseen)	86.1	# 27
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L	Overall	84.1	# 22
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L	Speed (FPS)	14.9	# 17
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L	Jaccard (Seen)	83.7	# 16
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L	Jaccard (Unseen)	78.1	# 23
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L	Params(M)	14.9	# 14
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L	F-Measure (Seen)	89.3	# 13
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L	F-Measure (Unseen)	86.4	# 25
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L	Overall	84.5	# 16
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L	Speed (FPS)	9.3	# 19
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L	Jaccard (Seen)	84.3	# 12
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L	Jaccard (Unseen)	77.9	# 25
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L	Params(M)	65.4	# 19
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L	F-Measure (Seen)	87.9	# 23
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L	F-Measure (Unseen)	86.5	# 23
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L	Overall	83.8	# 26
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L	Speed (FPS)	16.0	# 16
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L	Jaccard (Seen)	82.9	# 26
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L	Jaccard (Unseen)	77.7	# 27
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L	Params(M)	8.3	# 6
Video Object Segmentation	YouTube-VOS 2019	AOT	Mean Jaccard & F-Measure	84.1	# 4
Video Object Segmentation	YouTube-VOS 2019	AOT	Jaccard (Seen)	83.5	# 4
Video Object Segmentation	YouTube-VOS 2019	AOT	Jaccard (Unseen)	78.4	# 5
Video Object Segmentation	YouTube-VOS 2019	AOT	F-Measure (Seen)	88.1	# 4
Video Object Segmentation	YouTube-VOS 2019	AOT	F-Measure (Unseen)	86.3	# 5

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/video-object-segmentation-on-davis-2017-test-1)](https://paperswithcode.com/sota/video-object-segmentation-on-davis-2017-test-1?p=associating-objects-with-transformers-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/semi-supervised-video-object-segmentation-on-20)](https://paperswithcode.com/sota/semi-supervised-video-object-segmentation-on-20?p=associating-objects-with-transformers-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/video-object-segmentation-on-youtube-vos-2019-2)](https://paperswithcode.com/sota/video-object-segmentation-on-youtube-vos-2019-2?p=associating-objects-with-transformers-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/semi-supervised-video-object-segmentation-on-15)](https://paperswithcode.com/sota/semi-supervised-video-object-segmentation-on-15?p=associating-objects-with-transformers-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/video-object-segmentation-on-youtube-vos)](https://paperswithcode.com/sota/video-object-segmentation-on-youtube-vos?p=associating-objects-with-transformers-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/visual-object-tracking-on-davis-2016)](https://paperswithcode.com/sota/visual-object-tracking-on-davis-2016?p=associating-objects-with-transformers-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/semi-supervised-video-object-segmentation-on-1)](https://paperswithcode.com/sota/semi-supervised-video-object-segmentation-on-1?p=associating-objects-with-transformers-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/semi-supervised-video-object-segmentation-on-21)](https://paperswithcode.com/sota/semi-supervised-video-object-segmentation-on-21?p=associating-objects-with-transformers-for)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/associating-objects-with-transformers-for/visual-object-tracking-on-davis-2017)](https://paperswithcode.com/sota/visual-object-tracking-on-davis-2017?p=associating-objects-with-transformers-for)`

Associating Objects with Transformers for Video Object Segmentation

NeurIPS 2021 · Zongxin Yang, Yunchao Wei, Yi Yang ·

This paper investigates how to realize better and more efficient embedding learning to tackle the semi-supervised video object segmentation under challenging multi-object scenarios. The state-of-the-art methods learn to decode features with a single positive object and thus have to match and segment each target separately under multi-object scenarios, consuming multiple times computing resources. To solve the problem, we propose an Associating Objects with Transformers (AOT) approach to match and decode multiple objects uniformly. In detail, AOT employs an identification mechanism to associate multiple targets into the same high-dimensional embedding space. Thus, we can simultaneously process multiple objects' matching and segmentation decoding as efficiently as processing a single object. For sufficiently modeling multi-object association, a Long Short-Term Transformer is designed for constructing hierarchical matching and propagation. We conduct extensive experiments on both multi-object and single-object benchmarks to examine AOT variant networks with different complexities. Particularly, our R50-AOT-L outperforms all the state-of-the-art competitors on three popular benchmarks, i.e., YouTube-VOS (84.1% J&F), DAVIS 2017 (84.9%), and DAVIS 2016 (91.1%), while keeping more than $3\times$ faster multi-object run-time. Meanwhile, our AOT-T can maintain real-time multi-object speed on the above benchmarks. Based on AOT, we ranked 1st in the 3rd Large-scale VOS Challenge.

PDF Abstract NeurIPS 2021 PDF NeurIPS 2021 Abstract

Code

Add Remove Mark official

z-x-yang/AOT official

117

yoxu515/aot-benchmark

563

Tasks

Add Remove

Object

One-shot visual object segmentation

Semantic Segmentation

Semi-Supervised Video Object Segmentation

Video Object Segmentation

Video Semantic Segmentation

Datasets

DAVIS

DAVIS 2017

DAVIS 2016

YouTube-VOS 2018

Referring Expressions for DAVIS 2016 & 2017 VOTChallenge

MOSE

VOT2020

Results from the Paper

Edit

Ranked #2 on Video Object Segmentation on DAVIS 2017 (test-dev) (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	Jaccard (Mean)	88.7	# 31	Compare
			F-measure (Mean)	91.1	# 29	Compare
			J&F	89.9	# 31	Compare
			Speed (FPS)	29.6	# 13	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-S	Jaccard (Mean)	88.6	# 35	Compare
			F-measure (Mean)	90.2	# 35	Compare
			J&F	89.4	# 33	Compare
			Speed (FPS)	40.0	# 9	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-L	Jaccard (Mean)	89.6	# 24	Compare
			F-measure (Mean)	91.1	# 29	Compare
			J&F	90.4	# 29	Compare
			Speed (FPS)	18.7	# 23	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2016	R50-AOT-L	Jaccard (Mean)	90.1	# 21	Compare
			F-measure (Mean)	92.1	# 24	Compare
			J&F	91.1	# 21	Compare
			Speed (FPS)	18.0	# 24	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2016	SwinB-AOT-L	Jaccard (Mean)	90.7	# 8	Compare
			F-measure (Mean)	93.3	# 14	Compare
			J&F	92.0	# 11	Compare
			Speed (FPS)	12.1	# 28	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2016	AOT-T	Jaccard (Mean)	86.1	# 47	Compare
			F-measure (Mean)	87.4	# 46	Compare
			J&F	86.8	# 44	Compare
			Speed (FPS)	51.4	# 6	Compare
Video Object Segmentation	DAVIS 2017 (test-dev)	AOT	Jaccard	75.9	# 2	Compare
			F-measure	83.3	# 2	Compare
			Mean Jaccard & F-Measure	79.6	# 2	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-T	J&F	72.0	# 38	Compare
			Jaccard (Mean)	68.3	# 38	Compare
			F-measure (Mean)	75.7	# 38	Compare
			FPS	51.4	# 2	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	SwinB-AOT-L	J&F	81.2	# 13	Compare
			Jaccard (Mean)	77.3	# 16	Compare
			F-measure (Mean)	85.1	# 13	Compare
			FPS	12.1	# 18	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	R50-AOT-L	J&F	79.6	# 21	Compare
			Jaccard (Mean)	75.9	# 21	Compare
			F-measure (Mean)	83.3	# 21	Compare
			FPS	18.0	# 13	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-S	J&F	73.9	# 35	Compare
			Jaccard (Mean)	70.3	# 35	Compare
			F-measure (Mean)	77.5	# 35	Compare
			FPS	40.0	# 5	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-B	J&F	75.5	# 31	Compare
			Jaccard (Mean)	71.6	# 33	Compare
			F-measure (Mean)	79.3	# 31	Compare
			FPS	29.6	# 7	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (test-dev)	AOT-L	J&F	78.3	# 24	Compare
			Jaccard (Mean)	74.3	# 26	Compare
			F-measure (Mean)	82.3	# 24	Compare
			FPS	18.7	# 12	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-L	Jaccard (Mean)	81.1	# 30	Compare
			F-measure (Mean)	86.4	# 30	Compare
			J&F	83.8	# 29	Compare
			Speed (FPS)	18.7	# 21	Compare
			Params(M)	8.3	# 6	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-T	Jaccard (Mean)	77.4	# 42	Compare
			F-measure (Mean)	82.3	# 43	Compare
			J&F	79.9	# 44	Compare
			Speed (FPS)	51.4	# 4	Compare
			Params(M)	5.7	# 1	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-S	Jaccard (Mean)	78.7	# 39	Compare
			F-measure (Mean)	83.9	# 40	Compare
			J&F	81.3	# 40	Compare
			Speed (FPS)	40.0	# 8	Compare
			Params(M)	7.0	# 2	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	AOT-B	Jaccard (Mean)	79.7	# 35	Compare
			F-measure (Mean)	85.2	# 36	Compare
			J&F	82.5	# 35	Compare
			Speed (FPS)	29.6	# 10	Compare
			Params(M)	8.3	# 6	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	R50-AOT-L	Jaccard (Mean)	82.3	# 21	Compare
			F-measure (Mean)	87.5	# 25	Compare
			J&F	84.9	# 24	Compare
			Speed (FPS)	18.0	# 22	Compare
			Params(M)	14.9	# 13	Compare
Semi-Supervised Video Object Segmentation	DAVIS 2017 (val)	SwinB-AOT-L	Jaccard (Mean)	82.4	# 20	Compare
			F-measure (Mean)	88.4	# 21	Compare
			J&F	85.4	# 19	Compare
			Speed (FPS)	12.1	# 26	Compare
			Params(M)	65.4	# 18	Compare
Semi-Supervised Video Object Segmentation	DAVIS (no YouTube-VOS training)	AOT-S	FPS	40.0	# 3	Compare
			D17 val (G)	79.2	# 3	Compare
			D17 val (J)	76.4	# 3	Compare
			D17 val (F)	82.0	# 3	Compare
Semi-Supervised Video Object Segmentation	MOSE	AOT	J&F	57.2	# 13	Compare
			J	53.1	# 13	Compare
			F	61.3	# 13	Compare
Semi-Supervised Video Object Segmentation	VOT2020	AOT-B	EAO	0.541	# 12	Compare
Semi-Supervised Video Object Segmentation	VOT2020	AOT-B	EAO (real-time)	0.533	# 8	Compare
Semi-Supervised Video Object Segmentation	VOT2020	R50-AOT-L	EAO	0.569	# 10	Compare
Semi-Supervised Video Object Segmentation	VOT2020	R50-AOT-L	EAO (real-time)	0.540	# 7	Compare
Semi-Supervised Video Object Segmentation	VOT2020	AOT-S	EAO	0.512	# 14	Compare
Semi-Supervised Video Object Segmentation	VOT2020	AOT-S	EAO (real-time)	0.499	# 10	Compare
Semi-Supervised Video Object Segmentation	VOT2020	AOT-L	EAO	0.574	# 8	Compare
Semi-Supervised Video Object Segmentation	VOT2020	AOT-L	EAO (real-time)	0.560	# 2	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L (all frames)	F-Measure (Seen)	88.8	# 16	Compare
			F-Measure (Unseen)	87.1	# 17	Compare
			Overall	84.5	# 16	Compare
			Speed (FPS)	6.5	# 21	Compare
			Jaccard (Seen)	83.7	# 16	Compare
			Jaccard (Unseen)	78.4	# 19	Compare
			Params(M)	8.3	# 6	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L (all frames)	F-Measure (Seen)	89.5	# 11	Compare
			F-Measure (Unseen)	88.2	# 9	Compare
			Overall	85.5	# 10	Compare
			Speed (FPS)	6.4	# 22	Compare
			Jaccard (Seen)	84.5	# 11	Compare
			Jaccard (Unseen)	79.6	# 9	Compare
			Params(M)	14.9	# 14	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L (all frames)	F-Measure (Seen)	90.1	# 6	Compare
			F-Measure (Unseen)	86.9	# 19	Compare
			Overall	85.1	# 12	Compare
			Speed (FPS)	5.2	# 23	Compare
			Jaccard (Seen)	85.1	# 6	Compare
			Jaccard (Unseen)	78.4	# 19	Compare
			Params(M)	65.4	# 19	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T (all frames)	F-Measure (Seen)	84.7	# 39	Compare
			F-Measure (Unseen)	83.5	# 35	Compare
			Overall	80.9	# 39	Compare
			Speed (FPS)	41.0	# 5	Compare
			Jaccard (Seen)	80.0	# 40	Compare
			Jaccard (Unseen)	75.2	# 39	Compare
			Params(M)	5.3	# 1	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S (all frames)	F-Measure (Seen)	87.0	# 30	Compare
			F-Measure (Unseen)	85.7	# 29	Compare
			Overall	83.0	# 29	Compare
			Speed (FPS)	27.1	# 7	Compare
			Jaccard (Seen)	82.2	# 29	Compare
			Jaccard (Unseen)	77.3	# 29	Compare
			Params(M)	7.9	# 4	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B (all frames)	F-Measure (Seen)	88.5	# 18	Compare
			F-Measure (Unseen)	86.5	# 23	Compare
			Overall	84.1	# 22	Compare
			Speed (FPS)	20.5	# 14	Compare
			Jaccard (Seen)	83.6	# 19	Compare
			Jaccard (Unseen)	78.0	# 24	Compare
			Params(M)	8.3	# 6	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-T	F-Measure (Seen)	84.5	# 41	Compare
			F-Measure (Unseen)	82.2	# 41	Compare
			Overall	80.2	# 40	Compare
			Speed (FPS)	41.0	# 5	Compare
			Jaccard (Seen)	80.1	# 39	Compare
			Jaccard (Unseen)	74.0	# 42	Compare
			Params(M)	5.3	# 1	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-S	F-Measure (Seen)	86.7	# 32	Compare
			F-Measure (Unseen)	85.0	# 32	Compare
			Overall	82.6	# 31	Compare
			Speed (FPS)	27.1	# 7	Compare
			Jaccard (Seen)	82.0	# 32	Compare
			Jaccard (Unseen)	76.6	# 33	Compare
			Params(M)	7.9	# 4	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-B	F-Measure (Seen)	87.5	# 28	Compare
			F-Measure (Unseen)	86.0	# 28	Compare
			Overall	83.5	# 28	Compare
			Speed (FPS)	20.5	# 14	Compare
			Jaccard (Seen)	82.6	# 28	Compare
			Jaccard (Unseen)	77.7	# 27	Compare
			Params(M)	8.3	# 6	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	R50-AOT-L	F-Measure (Seen)	88.5	# 18	Compare
			F-Measure (Unseen)	86.1	# 27	Compare
			Overall	84.1	# 22	Compare
			Speed (FPS)	14.9	# 17	Compare
			Jaccard (Seen)	83.7	# 16	Compare
			Jaccard (Unseen)	78.1	# 23	Compare
			Params(M)	14.9	# 14	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	SwinB-AOT-L	F-Measure (Seen)	89.3	# 13	Compare
			F-Measure (Unseen)	86.4	# 25	Compare
			Overall	84.5	# 16	Compare
			Speed (FPS)	9.3	# 19	Compare
			Jaccard (Seen)	84.3	# 12	Compare
			Jaccard (Unseen)	77.9	# 25	Compare
			Params(M)	65.4	# 19	Compare
Semi-Supervised Video Object Segmentation	YouTube-VOS 2018	AOT-L	F-Measure (Seen)	87.9	# 23	Compare
			F-Measure (Unseen)	86.5	# 23	Compare
			Overall	83.8	# 26	Compare
			Speed (FPS)	16.0	# 16	Compare
			Jaccard (Seen)	82.9	# 26	Compare
			Jaccard (Unseen)	77.7	# 27	Compare
			Params(M)	8.3	# 6	Compare
Video Object Segmentation	YouTube-VOS 2019	AOT	Mean Jaccard & F-Measure	84.1	# 4	Compare
			Jaccard (Seen)	83.5	# 4	Compare
			Jaccard (Unseen)	78.4	# 5	Compare
			F-Measure (Seen)	88.1	# 4	Compare
			F-Measure (Unseen)	86.3	# 5	Compare

Results from Other Papers

Task	Dataset	Model	Metric Name	Metric Value	Rank	Compare
Semi-Supervised Video Object Segmentation	VOT2020	SwinB-AOT-L	EAO	0.586	# 6	See all
Semi-Supervised Video Object Segmentation	VOT2020	SwinB-AOT-L	EAO (real-time)	0.523	# 9	See all
Semi-Supervised Video Object Segmentation	VOT2020	AOT-T	EAO	0.435	# 17	See all
Semi-Supervised Video Object Segmentation	VOT2020	AOT-T	EAO (real-time)	0.433	# 13	See all

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer • VOS

Edit Social Preview

Associating Objects with Transformers for Video Object Segmentation

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit