D\'ecodeur neuronal pour la transcription de documents manuscrits anciens (Neural decoder for the transcription of historical handwritten documents)

L{'}absence de donn{\'e}es annot{\'e}es peut {\^e}tre une difficult{\'e} majeure lorsque l{'}on s{'}int{\'e}resse {\`a} l{'}analyse de documents manuscrits anciens. Pour contourner cette difficult{\'e}, nous proposons de diviser le probl{\`e}me en deux, afin de pouvoir s{'}appuyer sur des donn{\'e}es plus facilement accessibles. Dans cet article nous pr{\'e}sentons la partie d{\'e}codeur d{'}un encodeur-d{\'e}codeur multimodal utilisant l{'}apprentissage par transfert de connaissances pour la transcription des titres de pi{\`e}ces de la Com{\'e}die Italienne. Le d{\'e}codeur transforme un vecteur de n-grammes au niveau caract{\`e}res en une s{\'e}quence de caract{\`e}res correspondant {\`a} un mot. L{'}apprentissage par transfert de connaissances est r{\'e}alis{\'e} principalement {\`a} partir d{'}une nouvelle ressource inexploit{\'e}e contemporaine {\`a} la Com{\'e}die-Italienne et th{\'e}matiquement proche ; ainsi que d{'}autres ressources couvrant d{'}autres domaines, des langages diff{\'e}rents et m{\^e}me des p{\'e}riodes diff{\'e}rentes. Nous obtenons 97,27{\%} de caract{\`e}res bien reconnus sur les donn{\'e}es de la Com{\'e}die-Italienne, ainsi que 86,57{\%} de mots correctement g{\'e}n{\'e}r{\'e}s malgr{\'e} une couverture de 67,58{\%} uniquement entre la Com{\'e}die-Italienne et l{'}ensemble d{'}apprentissage. Les exp{\'e}riences montrent qu{'}un tel syst{\`e}me peut {\^e}tre une approche efficace dans le cadre d{'}apprentissage par transfert.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here