TASK	DATASET	MODEL	METRIC NAME	METRIC VALUE	GLOBAL RANK
Key Information Extraction	SIMARA	DAN	F1 (%)	95.05	# 1
Handwritten Text Recognition	SIMARA	DAN	CER (%)	6.46	# 1
Handwritten Text Recognition	SIMARA	DAN	WER (%)	14.79	# 1

Badge	Markdown
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simara-a-database-for-key-value-information/key-information-extraction-on-simara)](https://paperswithcode.com/sota/key-information-extraction-on-simara?p=simara-a-database-for-key-value-information)`
	`[![PWC](https://img.shields.io/endpoint.svg?url=https://paperswithcode.com/badge/simara-a-database-for-key-value-information/handwritten-text-recognition-on-simara)](https://paperswithcode.com/sota/handwritten-text-recognition-on-simara?p=simara-a-database-for-key-value-information)`

SIMARA: a database for key-value information extraction from full pages

26 Apr 2023 · Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant ·

We propose a new database for information extraction from historical handwritten documents. The corpus includes 5,393 finding aids from six different series, dating from the 18th-20th centuries. Finding aids are handwritten documents that contain metadata describing older archives. They are stored in the National Archives of France and are used by archivists to identify and find archival documents. Each document is annotated at page-level, and contains seven fields to retrieve. The localization of each field is not available in such a way that this dataset encourages research on segmentation-free systems for information extraction. We propose a model based on the Transformer architecture trained for end-to-end information extraction and provide three sets for training, validation and testing, to ensure fair comparison with future works. The database is freely accessible at https://zenodo.org/record/7868059.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Handwriting Recognition

Handwritten Text Recognition

Key Information Extraction

Named Entity Recognition (NER)

Datasets

Introduced in the Paper:

SIMARA

Results from the Paper

Edit

Ranked #1 on Key Information Extraction on SIMARA

Get a GitHub badge

Task	Dataset	Model	Metric Name	Metric Value	Global Rank	Benchmark
Key Information Extraction	SIMARA	DAN	F1 (%)	95.05	# 1	Compare
Handwritten Text Recognition	SIMARA	DAN	CER (%)	6.46	# 1	Compare
Handwritten Text Recognition	SIMARA	DAN	WER (%)	14.79	# 1	Compare

Methods

Add Remove

Absolute Position Encodings • Adam • BPE • Dense Connections • Dropout • Label Smoothing • Layer Normalization • Linear Layer • Multi-Head Attention • Position-Wise Feed-Forward Layer • Residual Connection • Scaled Dot-Product Attention • Softmax • Transformer

Edit Social Preview

SIMARA: a database for key-value information extraction from full pages

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Edit

Methods

Add Remove