Apprentissage automatique de repr\'esentation de voix \`a l'aide d'une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )

La recherche d{'}acteurs vocaux pour les productions audiovisuelles est r{\'e}alis{\'e}e par des directeurs artistiques (DA). Les DA sont constamment {\`a} la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions {\`a} grande {\'e}chelle. Les outils automatiques capables de sugg{\'e}rer des voix pr{\'e}sentent alors un grand int{\'e}r{\^e}t pour l{'}industrie audiovisuelle. Dans les travaux pr{\'e}c{\'e}dents, nous avons montr{\'e} l{'}existence d{'}informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche {\`a} base de r{\'e}seaux de neurones pour construire une repr{\'e}sentation adapt{\'e}e aux personnages/r{\^o}les vis{\'e}s, appel{\'e}e p-vecteur. Nous proposons ensuite de tirer parti de donn{\'e}es externes pour la repr{\'e}sentation de voix, proches de celles d{'}origine, au moyen de m{\'e}thodes de distillation de la connaissance. Les exp{\'e}riences men{\'e}es sur des extraits de voix de jeux vid{\'e}o montrent une am{\'e}lioration significative de l{'}approche p-vecteur, avec distillation de la connaissance, par rapport {\`a} une repr{\'e}sentation x-vecteur, {\'e}tat-de-l{'}art en reconnaissance du locuteur.

PDF Abstract
No code implementations yet. Submit your code now

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here