D\'etection d'erreurs dans des transcriptions OCR de documents historiques par r\'eseaux de neurones r\'ecurrents multi-niveau (Combining character level and word level RNNs for post-OCR error detection)

Le traitement {\`a} posteriori de transcriptions OCR cherche {\`a} d{\'e}tecter les erreurs dans les sorties d{'}OCR pour tenter de les corriger, deux t{\^a}ches {\'e}valu{\'e}es par la comp{\'e}tition ICDAR-2017 Post-OCR Text Correction. Nous pr{\'e}senterons dans ce papier un syst{\`e}me de d{\'e}tection d{'}erreurs bas{\'e} sur un mod{\`e}le {\`a} r{\'e}seaux r{\'e}currents combinant une analyse du texte au niveau des mots et des caract{\`e}res en deux temps. Ce syst{\`e}me a {\'e}t{\'e} class{\'e} second dans trois cat{\'e}gories {\'e}valu{\'e}es parmi 11 candidats lors de la comp{\'e}tition.

PDF Abstract

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here