Analyse de l'effet de la r\'everb\'eration sur la reconnaissance automatique de la parole (Analyzing how reverberation affects Automatic Speech Recognition)

JEPTALNRECITAL 2020 · S{\'e}bastien Ferreira, J{\'e}r{\^o}me Farinas, Julien Pinquier, Julie Mauclair, St{\'e}phane Rabant ·

La Reconnaissance Automatique de la Parole (RAP) est moins performante lorsque le signal de parole est de mauvaise qualit{\'e}. Dans cette {\'e}tude, nous analysons les erreurs commises par les syst{\`e}mes de RAP lorsque la parole transcrite est r{\'e}verb{\'e}r{\'e}e afin de mieux comprendre les raisons de ces erreurs. Notre analyse permet de mettre en valeur les erreurs dues notamment {\`a} un mauvais alignement phon{\'e}tique. Nous avons pu constater que les phon{\`e}mes de courte dur{\'e}e sont majoritairement supprim{\'e}s lors du d{\'e}codage phon{\'e}tique. De plus, les phon{\`e}mes d{\'e}tect{\'e}s, qu{'}ils soient corrects ou pas, ont tendance {\`a} avoir la m{\^e}me dur{\'e}e, ce qui est anormal pour certaines classes phon{\'e}tiques comme les voyelles courtes ou les plosives. Nous avons aussi analys{\'e} les principales confusions entre les diff{\'e}rentes classes phon{\'e}tiques. Finalement, nous avons pu montrer que les erreurs lors de l{'}alignement phon{\'e}tique des syst{\`e}mes de transcription automatique entra{\^\i}nent beaucoup d{'}erreurs de d{\'e}tection.

PDF Abstract