Un Sous-espace Th\'ematique Latent pour la Compr\'ehension du Langage Parl\'e (A Latent Topic-based Subspace for Spoken Language Understanding)

Les applications de compr{\'e}hension du langage parl{\'e} sont moins performantes si les documents transcrits automatiquement contiennent un taux d{'}erreur-mot {\'e}lev{\'e}. Des solutions r{\'e}centes proposent de projeter ces transcriptions dans un espace de th{\`e}mes, comme par exemple l{'}allocation latente de Dirichlet (LDA), la LDA supervis{\'e}e ainsi que le mod{\`e}le author-topic (AT). Une repr{\'e}sentation compacte originale, appel{\'e}e c-vector, a {\'e}t{\'e} r{\'e}cemment introduite afin de surmonter la difficult{\'e} li{\'e}e au choix de la taille de ces espaces th{\'e}matiques. Cette repr{\'e}sentation am{\'e}liore la robustesse aux erreurs de transcription, en compactant les diff{\'e}rentes repr{\'e}sentations LDA d{'}un document parl{\'e} dans un espace r{\'e}duit. Le d{\'e}faut majeur de cette m{\'e}thode est le nombre {\'e}lev{\'e} de sous-t{\^a}ches n{\'e}cessaires {\`a} la construction de l{'}espace c-vector. Cet article propose de corriger ce d{\'e}faut en utilisant un cadre original fond{\'e} sur un espace de caract{\'e}ristiques robustes de faible dimension provenant d{'}un ensemble de mod{\`e}les AT consid{\'e}rant {\`a} la fois le contenu du dialogue parl{\'e} (les mots) et la classe du document. Les exp{\'e}rimentations, conduites sur le corpus DECODA, montrent que la repr{\'e}sentation propos{\'e}e permet un gain de plus de 2.5 points en termes de conversations correctement classifi{\'e}es.

PDF Abstract
No code implementations yet. Submit your code now

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods