TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Scene Text Recognition	CUTE80	MATRN	Accuracy	93.5	# 12
Scene Text Recognition	ICDAR2013	MATRN	Accuracy	97.9	# 9
Scene Text Recognition	ICDAR2015	MATRN	Accuracy	86.6	# 10
Scene Text Recognition	IIIT5k	MATRN	Accuracy	96.6	# 13
Scene Text Recognition	SVT	MATRN	Accuracy	95	# 13
Scene Text Recognition	SVTP	MATRN	Accuracy	90.6	# 11

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-text-recognition-networks/scene-text-recognition-on-icdar2013)](https://paperswithcode.com/sota/scene-text-recognition-on-icdar2013?p=multi-modal-text-recognition-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-text-recognition-networks/scene-text-recognition-on-icdar2015)](https://paperswithcode.com/sota/scene-text-recognition-on-icdar2015?p=multi-modal-text-recognition-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-text-recognition-networks/scene-text-recognition-on-svtp)](https://paperswithcode.com/sota/scene-text-recognition-on-svtp?p=multi-modal-text-recognition-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-text-recognition-networks/scene-text-recognition-on-cute80)](https://paperswithcode.com/sota/scene-text-recognition-on-cute80?p=multi-modal-text-recognition-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-text-recognition-networks/scene-text-recognition-on-iiit5k)](https://paperswithcode.com/sota/scene-text-recognition-on-iiit5k?p=multi-modal-text-recognition-networks)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/multi-modal-text-recognition-networks/scene-text-recognition-on-svt)](https://paperswithcode.com/sota/scene-text-recognition-on-svt?p=multi-modal-text-recognition-networks)`

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

30 Nov 2021 · Byeonghu Na, Yoonsik Kim, Sungrae Park ·

Linguistic knowledge has brought great benefits to scene text recognition by providing semantics to refine character sequences. However, since linguistic knowledge has been applied individually on the output sequence, previous methods have not fully utilized the semantics to understand visual clues for text recognition. This paper introduces a novel method, called Multi-modAl Text Recognition Network (MATRN), that enables interactions between visual and semantic features for better recognition performances. Specifically, MATRN identifies visual and semantic feature pairs and encodes spatial information into semantic features. Based on the spatial encoding, visual and semantic features are enhanced by referring to related features in the other modality. Furthermore, MATRN stimulates combining semantic features into visual features by hiding visual clues related to the character in the training phase. Our experiments demonstrate that MATRN achieves state-of-the-art performances on seven benchmarks with large margins, while naive combinations of two modalities show less-effective improvements. Further ablative studies prove the effectiveness of our proposed components. Our implementation is available at https://github.com/wp03052/MATRN.

PDF Abstract

Code

Add Remove Mark official

wp03052/MATRN official

byeonghu-na/matrn

Tasks

Add Remove

Scene Text Recognition

Datasets

ICDAR 2013 ICDAR 2015

SVT CUTE80 SVTP

IIIT5k

Results from the Paper

Edit

Ranked #9 on Scene Text Recognition on ICDAR2013

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Scene Text Recognition	CUTE80	MATRN	Accuracy	93.5	# 12	Compare
Scene Text Recognition	ICDAR2013	MATRN	Accuracy	97.9	# 9	Compare
Scene Text Recognition	ICDAR2015	MATRN	Accuracy	86.6	# 10	Compare
Scene Text Recognition	IIIT5k	MATRN	Accuracy	96.6	# 13	Compare
Scene Text Recognition	SVT	MATRN	Accuracy	95	# 13	Compare
Scene Text Recognition	SVTP	MATRN	Accuracy	90.6	# 11	Compare

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic Features

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove