Exploiter des mod\`eles de langue pour \'evaluer des sorties de logiciels d'OCR pour des documents fran\ccais du XVIIe si\`ecle ()

JEPTALNRECITAL 2020  ·  Jean-Baptiste Tanguy ·

Pour comparer deux sorties de logiciels d{'}OCR, le Character Error Rate (ou, CER) est fr{\'e}quemment utilis{\'e}. Moyennant l{'}existence d{'}une transcription de r{\'e}f{\'e}rence de qualit{\'e} pour certains documents du corpus, le CER calcule le taux d{'}erreurs de ces pi{\`e}ces et permet ensuite de s{\'e}lectionner le logiciel d{'}OCR le plus adapt{\'e}. Toutefois, ces transcriptions sont tr{\`e}s co{\^u}teuses {\`a} produire et peuvent freiner certaines {\'e}tudes, m{\^e}me prospectives. Nous explorons l{'}exploitation des mod{\`e}les de langue en agr{\'e}geant selon diff{\'e}rentes m{\'e}thodes les probabilit{\'e}s offertes par ceux-ci pour estimer la qualit{\'e} d{'}une sortie d{'}OCR. L{'}indice de corr{\'e}lation Pearson est ici utilis{\'e} pour comprendre dans quelle mesure ces estimations issues de mod{\`e}les de langue co-varient avec le CER, mesure de r{\'e}f{\'e}rence.

PDF Abstract

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here