TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Scene Text Recognition	COCO-Text	PARSeq	1:1 Accuracy	79.8±0.1	# 4
Scene Text Recognition	CUTE80	PARSeq	Accuracy	98.3±0.6	# 7
Scene Text Recognition	IC19-Art	PARSeq	Accuracy (%)	84.5±0.1	# 4
Scene Text Recognition	ICDAR2013	PARSeq	Accuracy	98.4±0.2	# 5
Scene Text Recognition	ICDAR2015	PARSeq	Accuracy	89.6±0.3	# 7
Scene Text Recognition	IIIT5k	PARSeq	Accuracy	99.1±0.1	# 5
Scene Text Recognition	SVT	PARSeq	Accuracy	97.9±0.2	# 7
Scene Text Recognition	SVTP	PARSeq	Accuracy	95.7±0.9	# 8

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scene-text-recognition-with-permuted/scene-text-recognition-on-coco-text)](https://paperswithcode.com/sota/scene-text-recognition-on-coco-text?p=scene-text-recognition-with-permuted)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scene-text-recognition-with-permuted/scene-text-recognition-on-ic19-art)](https://paperswithcode.com/sota/scene-text-recognition-on-ic19-art?p=scene-text-recognition-with-permuted)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scene-text-recognition-with-permuted/scene-text-recognition-on-icdar2013)](https://paperswithcode.com/sota/scene-text-recognition-on-icdar2013?p=scene-text-recognition-with-permuted)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scene-text-recognition-with-permuted/scene-text-recognition-on-iiit5k)](https://paperswithcode.com/sota/scene-text-recognition-on-iiit5k?p=scene-text-recognition-with-permuted)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scene-text-recognition-with-permuted/scene-text-recognition-on-cute80)](https://paperswithcode.com/sota/scene-text-recognition-on-cute80?p=scene-text-recognition-with-permuted)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scene-text-recognition-with-permuted/scene-text-recognition-on-icdar2015)](https://paperswithcode.com/sota/scene-text-recognition-on-icdar2015?p=scene-text-recognition-with-permuted)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scene-text-recognition-with-permuted/scene-text-recognition-on-svt)](https://paperswithcode.com/sota/scene-text-recognition-on-svt?p=scene-text-recognition-with-permuted)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/scene-text-recognition-with-permuted/scene-text-recognition-on-svtp)](https://paperswithcode.com/sota/scene-text-recognition-on-svtp?p=scene-text-recognition-with-permuted)`

Scene Text Recognition with Permuted Autoregressive Sequence Models

14 Jul 2022 · Darwin Bautista, Rowel Atienza ·

Context-aware STR methods typically use internal autoregressive (AR) language models (LM). Inherent limitations of AR models motivated two-stage methods which employ an external LM. The conditional independence of the external LM on the input image may cause it to erroneously rectify correct predictions, leading to significant inefficiencies. Our method, PARSeq, learns an ensemble of internal AR LMs with shared weights using Permutation Language Modeling. It unifies context-free non-AR and context-aware AR inference, and iterative refinement using bidirectional context. Using synthetic training data, PARSeq achieves state-of-the-art (SOTA) results in STR benchmarks (91.9% accuracy) and more challenging datasets. It establishes new SOTA results (96.0% accuracy) when trained on real data. PARSeq is optimal on accuracy vs parameter count, FLOPS, and latency because of its simple, unified structure and parallel token processing. Due to its extensive use of attention, it is robust on arbitrarily-oriented text which is common in real-world images. Code, pretrained weights, and data are available at: https://github.com/baudm/parseq.

PDF Abstract

Code

Add Remove Mark official

baudm/parseq official

↳ Quickstart in

Spaces

497

Tasks

Add Remove

Language Modelling

Scene Text Recognition

Datasets

ICDAR 2013

COCO-Text ICDAR 2015

SVT

TextOCR

RCTW-17 CUTE80

IIIT5k SVTP

Results from the Paper

Edit

Ranked #4 on Scene Text Recognition on IC19-Art (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Scene Text Recognition	COCO-Text	PARSeq	1:1 Accuracy	79.8±0.1	# 4	Compare
Scene Text Recognition	CUTE80	PARSeq	Accuracy	98.3±0.6	# 7	Compare
Scene Text Recognition	IC19-Art	PARSeq	Accuracy (%)	84.5±0.1	# 4	Compare
Scene Text Recognition	ICDAR2013	PARSeq	Accuracy	98.4±0.2	# 5	Compare
Scene Text Recognition	ICDAR2015	PARSeq	Accuracy	89.6±0.3	# 7	Compare
Scene Text Recognition	IIIT5k	PARSeq	Accuracy	99.1±0.1	# 5	Compare
Scene Text Recognition	SVT	PARSeq	Accuracy	97.9±0.2	# 7	Compare
Scene Text Recognition	SVTP	PARSeq	Accuracy	95.7±0.9	# 8	Compare

Methods

Add Remove

Dense Connections • Layer Normalization • Linear Layer • Multi-Head Attention • Residual Connection • Scaled Dot-Product Attention • Softmax • Vision Transformer

Edit Social Preview

Scene Text Recognition with Permuted Autoregressive Sequence Models

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove