Un Sous-espace Th\'ematique Latent pour la Compr\'ehension du Langage Parl\'e (A Latent Topic-based Subspace for Spoken Language Understanding)

JEPTALNRECITAL 2016 · Mohamed Bouaziz, Mohamed Morchid, Pierre-Michel Bousquet, Richard Dufour, Killian Janod, Waad Ben Kheder, Georges Linar{\`e}s ·

Les applications de compr{\'e}hension du langage parl{\'e} sont moins performantes si les documents transcrits automatiquement contiennent un taux d{'}erreur-mot {\'e}lev{\'e}. Des solutions r{\'e}centes proposent de projeter ces transcriptions dans un espace de th{\`e}mes, comme par exemple l{'}allocation latente de Dirichlet (LDA), la LDA supervis{\'e}e ainsi que le mod{\`e}le author-topic (AT). Une repr{\'e}sentation compacte originale, appel{\'e}e c-vector, a {\'e}t{\'e} r{\'e}cemment introduite afin de surmonter la difficult{\'e} li{\'e}e au choix de la taille de ces espaces th{\'e}matiques. Cette repr{\'e}sentation am{\'e}liore la robustesse aux erreurs de transcription, en compactant les diff{\'e}rentes repr{\'e}sentations LDA d{'}un document parl{\'e} dans un espace r{\'e}duit. Le d{\'e}faut majeur de cette m{\'e}thode est le nombre {\'e}lev{\'e} de sous-t{\^a}ches n{\'e}cessaires {\`a} la construction de l{'}espace c-vector. Cet article propose de corriger ce d{\'e}faut en utilisant un cadre original fond{\'e} sur un espace de caract{\'e}ristiques robustes de faible dimension provenant d{'}un ensemble de mod{\`e}les AT consid{\'e}rant {\`a} la fois le contenu du dialogue parl{\'e} (les mots) et la classe du document. Les exp{\'e}rimentations, conduites sur le corpus DECODA, montrent que la repr{\'e}sentation propos{\'e}e permet un gain de plus de 2.5 points en termes de conversations correctement classifi{\'e}es.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Spoken Language Understanding

Datasets

Add Datasets introduced or used in this paper

Results from the Paper

Add Remove

Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods

Add Remove

LDA

Edit Social Preview

Un Sous-espace Th\'ematique Latent pour la Compr\'ehension du Langage Parl\'e (A Latent Topic-based Subspace for Spoken Language Understanding)

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove