Auto-encodeurs pour la compr\'ehension de documents parl\'es (Auto-encoders for Spoken Document Understanding)

Les repr{\'e}sentations de documents au moyen d{'}approches {\`a} base de r{\'e}seaux de neurones ont montr{\'e} des am{\'e}liorations significatives dans de nombreuses t{\^a}ches du traitement du langage naturel. Dans le cadre d{'}applications r{\'e}elles, o{\`u} des conditions d{'}enregistrement difficiles peuvent {\^e}tre rencontr{\'e}es, la transcription automatique de documents parl{\'e}s peut g{\'e}n{\'e}rer un nombre de mots mal transcrits important. Cet article propose une repr{\'e}sentation des documents parl{\'e}s tr{\`e}s bruit{\'e}s utilisant des caract{\'e}ristiques apprises par un auto-encodeur profond supervis{\'e}. La m{\'e}thode propos{\'e}e s{'}appuie {\`a} la fois sur les documents bruit{\'e}s et leur {\'e}quivalent propre annot{\'e} manuellement pour estimer une repr{\'e}sentation plus robuste des documents bruit{\'e}s. Cette repr{\'e}sentation est {\'e}valu{\'e}e sur le corpus DECODA sur une t{\^a}che de classification th{\'e}matique de conversations t{\'e}l{\'e}phoniques atteignant une pr{\'e}cision de 83{\%} avec un gain d{'}environ 6{\%}.

PDF Abstract
No code implementations yet. Submit your code now

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here