TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Scene Text Recognition	COCO-Text	CLIP4STR-L	1:1 Accuracy	81.9	# 1
Scene Text Recognition	COCO-Text	CLIP4STR-B	1:1 Accuracy	81.1	# 3
Scene Text Recognition	CUTE80	CLIP4STR-L	Accuracy	99.0	# 6
Scene Text Recognition	CUTE80	CLIP4STR-B	Accuracy	99.3	# 4
Scene Text Recognition	HOST	CLIP4STR-B	1:1 Accuracy	79.8	# 2
Scene Text Recognition	HOST	CLIP4STR-L	1:1 Accuracy	82.7	# 1
Scene Text Recognition	IC19-Art	CLIP4STR-L	Accuracy (%)	85.9	# 1
Scene Text Recognition	IC19-Art	CLIP4STR-B	Accuracy (%)	85.8	# 2
Scene Text Recognition	ICDAR2013	CLIP4STR-B	Accuracy	98.3	# 6
Scene Text Recognition	ICDAR2013	CLIP4STR-L	Accuracy	98.5	# 3
Scene Text Recognition	ICDAR2015	CLIP4STR-L	Accuracy	90.8	# 5
Scene Text Recognition	ICDAR2015	CLIP4STR-B	Accuracy	90.6	# 6
Scene Text Recognition	IIIT5k	CLIP4STR-L	Accuracy	99.5	# 2
Scene Text Recognition	IIIT5k	CLIP4STR-B	Accuracy	99.2	# 4
Scene Text Recognition	SVT	CLIP4STR-L	Accuracy	98.5	# 4
Scene Text Recognition	SVT	CLIP4STR-B	Accuracy	98.3	# 6
Scene Text Recognition	SVTP	CLIP4STR-B	Accuracy	97.2	# 5
Scene Text Recognition	SVTP	CLIP4STR-L	Accuracy	97.4	# 4
Scene Text Recognition	Uber-Text	CLIP4STR-B	Accuracy (%)	86.8	# 2
Scene Text Recognition	WOST	CLIP4STR-L	1:1 Accuracy	88.8	# 1
Scene Text Recognition	WOST	CLIP4STR-B	1:1 Accuracy	87.0	# 2

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-coco-text)](https://paperswithcode.com/sota/scene-text-recognition-on-coco-text?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-host)](https://paperswithcode.com/sota/scene-text-recognition-on-host?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-ic19-art)](https://paperswithcode.com/sota/scene-text-recognition-on-ic19-art?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-wost)](https://paperswithcode.com/sota/scene-text-recognition-on-wost?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-iiit5k)](https://paperswithcode.com/sota/scene-text-recognition-on-iiit5k?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-uber-text)](https://paperswithcode.com/sota/scene-text-recognition-on-uber-text?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-icdar2013)](https://paperswithcode.com/sota/scene-text-recognition-on-icdar2013?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-cute80)](https://paperswithcode.com/sota/scene-text-recognition-on-cute80?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-svt)](https://paperswithcode.com/sota/scene-text-recognition-on-svt?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-svtp)](https://paperswithcode.com/sota/scene-text-recognition-on-svtp?p=clip4str-a-simple-baseline-for-scene-text-1)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/clip4str-a-simple-baseline-for-scene-text-1/scene-text-recognition-on-icdar2015)](https://paperswithcode.com/sota/scene-text-recognition-on-icdar2015?p=clip4str-a-simple-baseline-for-scene-text-1)`

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

23 May 2023 · Shuai Zhao, Xiaohan Wang, Linchao Zhu, Ruijie Quan, Yi Yang ·

Pre-trained vision-language models~(VLMs) are the de-facto foundation models for various downstream tasks. However, scene text recognition methods still prefer backbones pre-trained on a single modality, namely, the visual modality, despite the potential of VLMs to serve as powerful scene text readers. For example, CLIP can robustly identify regular (horizontal) and irregular (rotated, curved, blurred, or occluded) text in images. With such merits, we transform CLIP into a scene text reader and introduce CLIP4STR, a simple yet effective STR method built upon image and text encoders of CLIP. It has two encoder-decoder branches: a visual branch and a cross-modal branch. The visual branch provides an initial prediction based on the visual feature, and the cross-modal branch refines this prediction by addressing the discrepancy between the visual feature and text semantics. To fully leverage the capabilities of both branches, we design a dual predict-and-refine decoding scheme for inference. CLIP4STR achieves new state-of-the-art performance on 11 STR benchmarks. Additionally, a comprehensive empirical study is provided to enhance the understanding of the adaptation of CLIP to STR. We believe our method establishes a simple but strong baseline for future STR research with VLMs.

PDF Abstract

Code

Add Remove Mark official

VamosC/CLIP4STR

Tasks

Add Remove

Language Modelling

Scene Text Recognition

Datasets

ImageNet-1K

ICDAR 2013

COCO-Text

SVT CUTE80 SVTP

IIIT5k HOST WOST

Results from the Paper

Edit

Ranked #1 on Scene Text Recognition on WOST (using extra training data)

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Scene Text Recognition	COCO-Text	CLIP4STR-L	1:1 Accuracy	81.9	# 1	Compare
Scene Text Recognition	COCO-Text	CLIP4STR-B	1:1 Accuracy	81.1	# 3	Compare
Scene Text Recognition	CUTE80	CLIP4STR-L	Accuracy	99.0	# 6	Compare
Scene Text Recognition	CUTE80	CLIP4STR-B	Accuracy	99.3	# 4	Compare
Scene Text Recognition	HOST	CLIP4STR-B	1:1 Accuracy	79.8	# 2	Compare
Scene Text Recognition	HOST	CLIP4STR-L	1:1 Accuracy	82.7	# 1	Compare
Scene Text Recognition	IC19-Art	CLIP4STR-L	Accuracy (%)	85.9	# 1	Compare
Scene Text Recognition	IC19-Art	CLIP4STR-B	Accuracy (%)	85.8	# 2	Compare
Scene Text Recognition	ICDAR2013	CLIP4STR-B	Accuracy	98.3	# 6	Compare
Scene Text Recognition	ICDAR2013	CLIP4STR-L	Accuracy	98.5	# 3	Compare
Scene Text Recognition	ICDAR2015	CLIP4STR-L	Accuracy	90.8	# 5	Compare
Scene Text Recognition	ICDAR2015	CLIP4STR-B	Accuracy	90.6	# 6	Compare
Scene Text Recognition	IIIT5k	CLIP4STR-L	Accuracy	99.5	# 2	Compare
Scene Text Recognition	IIIT5k	CLIP4STR-B	Accuracy	99.2	# 4	Compare
Scene Text Recognition	SVT	CLIP4STR-L	Accuracy	98.5	# 4	Compare
Scene Text Recognition	SVT	CLIP4STR-B	Accuracy	98.3	# 6	Compare
Scene Text Recognition	SVTP	CLIP4STR-B	Accuracy	97.2	# 5	Compare
Scene Text Recognition	SVTP	CLIP4STR-L	Accuracy	97.4	# 4	Compare
Scene Text Recognition	Uber-Text	CLIP4STR-B	Accuracy (%)	86.8	# 2	Compare
Scene Text Recognition	WOST	CLIP4STR-L	1:1 Accuracy	88.8	# 1	Compare
Scene Text Recognition	WOST	CLIP4STR-B	1:1 Accuracy	87.0	# 2	Compare

Methods

Add Remove

CLIP

Edit Social Preview

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove