Introduction d'informations s\'emantiques dans un syst\`eme de reconnaissance de la parole (Despite spectacular advances in recent years, the Automatic Speech Recognition (ASR) systems still make mistakes, especially in noisy environments)

JEPTALNRECITAL 2020 · St{\'e}phane Level, Irina Illina, Dominique Fohr ·

Malgr{\'e} les avanc{\'e}s spectaculaires ces derni{\`e}res ann{\'e}es, les syst{\`e}mes de Reconnaissance Automatique de Parole (RAP) commettent encore des erreurs, surtout dans des environnements bruit{\'e}s. Pour am{\'e}liorer la RAP, nous proposons de se diriger vers une contextualisation d{'}un syst{\`e}me RAP, car les informations s{\'e}mantiques sont importantes pour la performance de la RAP. Les syst{\`e}mes RAP actuels ne prennent en compte principalement que les informations lexicales et syntaxiques. Pour mod{\'e}liser les informations s{\'e}mantiques, nous proposons de d{\'e}tecter les mots de la phrase trait{\'e}e qui pourraient avoir {\'e}t{\'e} mal reconnus et de proposer des mots correspondant mieux au contexte. Cette analyse s{\'e}mantique permettra de r{\'e}{\'e}valuer les N meilleures hypoth{\`e}ses de transcription (N-best). Nous utilisons les embeddings Word2Vec et BERT. Nous avons {\'e}valu{\'e} notre m{\'e}thodologie sur le corpus des conf{\'e}rences TED (TED-LIUM). Les r{\'e}sultats montrent une am{\'e}lioration significative du taux d{'}erreur mots en utilisant la m{\'e}thodologie propos{\'e}e.

PDF Abstract