D\'ecodeur neuronal pour la transcription de documents manuscrits anciens (Neural decoder for the transcription of historical handwritten documents)
L{'}absence de donn{\'e}es annot{\'e}es peut {\^e}tre une difficult{\'e} majeure lorsque l{'}on s{'}int{\'e}resse {\`a} l{'}analyse de documents manuscrits anciens. Pour contourner cette difficult{\'e}, nous proposons de diviser le probl{\`e}me en deux, afin de pouvoir s{'}appuyer sur des donn{\'e}es plus facilement accessibles. Dans cet article nous pr{\'e}sentons la partie d{\'e}codeur d{'}un encodeur-d{\'e}codeur multimodal utilisant l{'}apprentissage par transfert de connaissances pour la transcription des titres de pi{\`e}ces de la Com{\'e}die Italienne. Le d{\'e}codeur transforme un vecteur de n-grammes au niveau caract{\`e}res en une s{\'e}quence de caract{\`e}res correspondant {\`a} un mot. L{'}apprentissage par transfert de connaissances est r{\'e}alis{\'e} principalement {\`a} partir d{'}une nouvelle ressource inexploit{\'e}e contemporaine {\`a} la Com{\'e}die-Italienne et th{\'e}matiquement proche ; ainsi que d{'}autres ressources couvrant d{'}autres domaines, des langages diff{\'e}rents et m{\^e}me des p{\'e}riodes diff{\'e}rentes. Nous obtenons 97,27{\%} de caract{\`e}res bien reconnus sur les donn{\'e}es de la Com{\'e}die-Italienne, ainsi que 86,57{\%} de mots correctement g{\'e}n{\'e}r{\'e}s malgr{\'e} une couverture de 67,58{\%} uniquement entre la Com{\'e}die-Italienne et l{'}ensemble d{'}apprentissage. Les exp{\'e}riences montrent qu{'}un tel syst{\`e}me peut {\^e}tre une approche efficace dans le cadre d{'}apprentissage par transfert.
PDF Abstract