Apprentissage automatique de repr\'esentation de voix \`a l'aide d'une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )
La recherche d{'}acteurs vocaux pour les productions audiovisuelles est r{\'e}alis{\'e}e par des directeurs artistiques (DA). Les DA sont constamment {\`a} la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions {\`a} grande {\'e}chelle. Les outils automatiques capables de sugg{\'e}rer des voix pr{\'e}sentent alors un grand int{\'e}r{\^e}t pour l{'}industrie audiovisuelle. Dans les travaux pr{\'e}c{\'e}dents, nous avons montr{\'e} l{'}existence d{'}informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche {\`a} base de r{\'e}seaux de neurones pour construire une repr{\'e}sentation adapt{\'e}e aux personnages/r{\^o}les vis{\'e}s, appel{\'e}e p-vecteur. Nous proposons ensuite de tirer parti de donn{\'e}es externes pour la repr{\'e}sentation de voix, proches de celles d{'}origine, au moyen de m{\'e}thodes de distillation de la connaissance. Les exp{\'e}riences men{\'e}es sur des extraits de voix de jeux vid{\'e}o montrent une am{\'e}lioration significative de l{'}approche p-vecteur, avec distillation de la connaissance, par rapport {\`a} une repr{\'e}sentation x-vecteur, {\'e}tat-de-l{'}art en reconnaissance du locuteur.
PDF Abstract