TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Optical Character Recognition (OCR)	Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study	DTrOCR	Accuracy (%)	89.6	# 1
Scene Text Recognition	CUTE80	DTrOCR	Accuracy	99.1	# 5
Handwritten Text Recognition	IAM	DTrOCR	CER	2.38	# 1
Scene Text Recognition	ICDAR2013	DTrOCR	Accuracy	99.4	# 2
Scene Text Recognition	ICDAR2015	DTrOCR	Accuracy	93.5	# 1
Scene Text Recognition	IIIT5k	DTrOCR	Accuracy	99.6	# 1
Task 2	SROIE	DTrOCR	F1	98.37	# 1
Scene Text Recognition	SVT	DTrOCR	Accuracy	98.9	# 1
Scene Text Recognition	SVTP	DTrOCR	Accuracy	98.6	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/optical-character-recognition-on-benchmarking)](https://paperswithcode.com/sota/optical-character-recognition-on-benchmarking?p=dtrocr-decoder-only-transformer-for-optical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/handwritten-text-recognition-on-iam)](https://paperswithcode.com/sota/handwritten-text-recognition-on-iam?p=dtrocr-decoder-only-transformer-for-optical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/scene-text-recognition-on-icdar2015)](https://paperswithcode.com/sota/scene-text-recognition-on-icdar2015?p=dtrocr-decoder-only-transformer-for-optical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/scene-text-recognition-on-iiit5k)](https://paperswithcode.com/sota/scene-text-recognition-on-iiit5k?p=dtrocr-decoder-only-transformer-for-optical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/task-2-on-sroie)](https://paperswithcode.com/sota/task-2-on-sroie?p=dtrocr-decoder-only-transformer-for-optical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/scene-text-recognition-on-svt)](https://paperswithcode.com/sota/scene-text-recognition-on-svt?p=dtrocr-decoder-only-transformer-for-optical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/scene-text-recognition-on-svtp)](https://paperswithcode.com/sota/scene-text-recognition-on-svtp?p=dtrocr-decoder-only-transformer-for-optical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/scene-text-recognition-on-icdar2013)](https://paperswithcode.com/sota/scene-text-recognition-on-icdar2013?p=dtrocr-decoder-only-transformer-for-optical)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/dtrocr-decoder-only-transformer-for-optical/scene-text-recognition-on-cute80)](https://paperswithcode.com/sota/scene-text-recognition-on-cute80?p=dtrocr-decoder-only-transformer-for-optical)`

DTrOCR: Decoder-only Transformer for Optical Character Recognition

30 Aug 2023 · Masato Fujitake ·

Typical text recognition methods rely on an encoder-decoder structure, in which the encoder extracts features from an image, and the decoder produces recognized text from these features. In this study, we propose a simpler and more effective method for text recognition, known as the Decoder-only Transformer for Optical Character Recognition (DTrOCR). This method uses a decoder-only Transformer to take advantage of a generative language model that is pre-trained on a large corpus. We examined whether a generative language model that has been successful in natural language processing can also be effective for text recognition in computer vision. Our experiments demonstrated that DTrOCR outperforms current state-of-the-art methods by a large margin in the recognition of printed, handwritten, and scene text in both English and Chinese.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Handwritten Text Recognition

Language Modelling

Optical Character Recognition

Optical Character Recognition (OCR)

Scene Text Recognition

Task 2

Datasets

ICDAR 2013

IAM

SROIE

SVT CUTE80 SVTP

IIIT5k

Results from the Paper

Edit

Ranked #1 on Optical Character Recognition (OCR) on Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Optical Character Recognition (OCR)	Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study	DTrOCR	Accuracy (%)	89.6	# 1	Compare
Scene Text Recognition	CUTE80	DTrOCR	Accuracy	99.1	# 5	Compare
Handwritten Text Recognition	IAM	DTrOCR	CER	2.38	# 1	Compare
Scene Text Recognition	ICDAR2013	DTrOCR	Accuracy	99.4	# 2	Compare
Scene Text Recognition	ICDAR2015	DTrOCR	Accuracy	93.5	# 1	Compare
Scene Text Recognition	IIIT5k	DTrOCR	Accuracy	99.6	# 1	Compare
Task 2	SROIE	DTrOCR	F1	98.37	# 1	Compare
Scene Text Recognition	SVT	DTrOCR	Accuracy	98.9	# 1	Compare
Scene Text Recognition	SVTP	DTrOCR	Accuracy	98.6	# 1	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

DTrOCR: Decoder-only Transformer for Optical Character Recognition

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove