Exploration de param\`etres acoustiques d\'eriv\'es de GMM pour l'adaptation non supervis\'ee de mod\`eles acoustiques \`a base de r\'eseaux de neurones profonds (Exploring GMM-derived features for unsupervised adaptation of deep neural network acoustic models)
L{'}{\'e}tude pr{\'e}sent{\'e}e dans cet article am{\'e}liore une m{\'e}thode r{\'e}cemment propos{\'e}e pour l{'}adaptation de mod{\`e}les acoustiques markoviens coupl{\'e}s {\`a} un r{\'e}seau de neurones profond (DNN-HMM). Cette m{\'e}thode d{'}adaptation utilise des param{\`e}tres acoustiques d{\'e}riv{\'e}s de mixtures de mod{\`e}les Gaussiens (GMM-derived features, GMMD ). L{'}am{\'e}lioration provient de l{'}emploi de scores et de mesures de confiance calcul{\'e}s {\`a} partir de graphes construits dans le cadre d{'}un algorithme d{'}adaptation conventionnel dit de maximum a posteriori (MAP). Une version modifi{\'e}e de l{'}adaptation MAP est appliqu{\'e}e sur le mod{\`e}le GMM auxiliaire utilis{\'e} dans une proc{\'e}dure d{'}apprentissage adaptatif au locuteur (speaker adaptative training, SAT) lors de l{'}apprentissage du DNN. Des exp{\'e}riences men{\'e}es sur le corpus Wall Street Journal (WSJ0) montrent que la technique d{'}adaptation non supervis{\'e}e propos{\'e}e dans cet article permet une r{\'e}duction relative de 8, 4{\%} du taux d{'}erreurs sur les mots (WER), par rapport aux r{\'e}sultats obtenus avec des mod{\`e}les DNN-HMM ind{\'e}pendants du locuteur utilisant des param{\`e}tres acoustiques plus conventionnels.
PDF Abstract