Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRis\'es en Arabe (This article presents a new system that automatically translates images of arabic documents)

Cet article pr{\'e}sente un syst{\`e}me original de traduction de documents num{\'e}ris{\'e}s en arabe. Deux modules sont cascad{\'e}s : un syst{\`e}me de reconnaissance optique de caract{\`e}res (OCR) en arabe et un syst{\`e}me de traduction automatique (TA) arabe-fran{\c{c}}ais. Le couplage OCR-TA a {\'e}t{\'e} peu abord{\'e} dans la litt{\'e}rature et l{'}originalit{\'e} de cette {\'e}tude consiste {\`a} proposer un couplage {\'e}troit entre OCR et TA ainsi qu{'}un traitement sp{\'e}cifique des mots hors vocabulaire (MHV) engendr{\'e}s par les erreurs d{'}OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une am{\'e}lioration significative des performances de traduction. Les exp{\'e}rimentations sont r{\'e}alis{\'e}s sur un corpus de journaux num{\'e}ris{\'e}s en arabe et permettent d{'}obtenir des am{\'e}liorations en score BLEU de 3,73 et 5,5 sur les corpus de d{\'e}veloppement et de test respectivement.

PDF Abstract

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here