Un Sous-espace Th\'ematique Latent pour la Compr\'ehension du Langage Parl\'e (A Latent Topic-based Subspace for Spoken Language Understanding)
Les applications de compr{\'e}hension du langage parl{\'e} sont moins performantes si les documents transcrits automatiquement contiennent un taux d{'}erreur-mot {\'e}lev{\'e}. Des solutions r{\'e}centes proposent de projeter ces transcriptions dans un espace de th{\`e}mes, comme par exemple l{'}allocation latente de Dirichlet (LDA), la LDA supervis{\'e}e ainsi que le mod{\`e}le author-topic (AT). Une repr{\'e}sentation compacte originale, appel{\'e}e c-vector, a {\'e}t{\'e} r{\'e}cemment introduite afin de surmonter la difficult{\'e} li{\'e}e au choix de la taille de ces espaces th{\'e}matiques. Cette repr{\'e}sentation am{\'e}liore la robustesse aux erreurs de transcription, en compactant les diff{\'e}rentes repr{\'e}sentations LDA d{'}un document parl{\'e} dans un espace r{\'e}duit. Le d{\'e}faut majeur de cette m{\'e}thode est le nombre {\'e}lev{\'e} de sous-t{\^a}ches n{\'e}cessaires {\`a} la construction de l{'}espace c-vector. Cet article propose de corriger ce d{\'e}faut en utilisant un cadre original fond{\'e} sur un espace de caract{\'e}ristiques robustes de faible dimension provenant d{'}un ensemble de mod{\`e}les AT consid{\'e}rant {\`a} la fois le contenu du dialogue parl{\'e} (les mots) et la classe du document. Les exp{\'e}rimentations, conduites sur le corpus DECODA, montrent que la repr{\'e}sentation propos{\'e}e permet un gain de plus de 2.5 points en termes de conversations correctement classifi{\'e}es.
PDF Abstract