Adaptation de domaine non supervis\'ee pour la reconnaissance de la langue par r\'egularisation d'un r\'eseau de neurones (Unsupervised domain adaptation for language identification by regularization of a neural network)

JEPTALNRECITAL 2020 · Rapha{\"e}l Duroselle, Denis Jouvet, Irina Illina ·

Les syst{\`e}mes automatiques d{'}identification de la langue subissent une d{\'e}gradation importante de leurs performances quand les caract{\'e}ristiques acoustiques des signaux de test diff{\`e}rent fortement des caract{\'e}ristiques des donn{\'e}es d{'}entra{\^\i}nement. Dans cet article, nous {\'e}tudions l{'}adaptation de domaine non supervis{\'e}e d{'}un syst{\`e}me entra{\^\i}n{\'e} sur des conversations t{\'e}l{\'e}phoniques {\`a} des transmissions radio. Nous pr{\'e}sentons une m{\'e}thode de r{\'e}gularisation d{'}un r{\'e}seau de neurones consistant {\`a} ajouter {\`a} la fonction de co{\^u}t un terme mesurant la divergence entre les deux domaines. Des exp{\'e}riences sur le corpus OpenSAD15 nous permettent de s{\'e}lectionner la Maximum Mean Discrepancy pour r{\'e}aliser cette mesure. Cette approche est ensuite appliqu{\'e}e {\`a} un syst{\`e}me moderne d{'}identification de la langue reposant sur des x-vectors. Sur le corpus RATS, pour sept des huit canaux radio {\'e}tudi{\'e}s, l{'}approche permet, sans utiliser de donn{\'e}es annot{\'e}es du domaine cible, de surpasser la performance d{'}un syst{\`e}me entra{\^\i}n{\'e} de fa{\c{c}}on supervis{\'e}e avec des donn{\'e}es annot{\'e}es de ce domaine.

PDF Abstract