Optimiser l'adaptation en ligne d'un module de compr\'ehension de la parole avec un algorithme de bandit contre un adversaire (Adversarial bandit for optimising online active learning of spoken language understanding)
De nombreux modules de compr{\'e}hension de la parole ont en commun d{'}{\^e}tre probabilistes et bas{\'e}s sur des algorithmes d{'}apprentissage automatique. Deux difficult{\'e}s majeures, rencontr{\'e}es par toutes les m{\'e}thodes existantes sont : le co{\^u}t de la collecte des donn{\'e}es et l{'}adaptation d{'}un module existant {\`a} un nouveau domaine. Dans cet article, nous proposons un processus d{'}adaptation en ligne avec une politique apprise en utilisant un algorithme de type bandit contre un adversaire. Nous montrons que cette proposition peut permettre d{'}optimiser un {\'e}quilibre entre le co{\^u}t de la collecte des retours demand{\'e}s aux utilisateurs et la performance globale de la compr{\'e}hension du langage parl{\'e} apr{\`e}s sa mise {\`a} jour.
PDF Abstract