Informations segmentales pour la caract\'erisation phon\'etique du locuteur : variabilit\'e inter- et intra-locuteurs (An automatic classification task involving 44 speakers was performed using convolutional neural networks (CNN) on broadband spectrograms extracted from 2-second sequences of a spontaneous speech corpus (NCCFr))

JEPTALNRECITAL 2020 · Cedric Gendrot, Emmanuel Ferragne, Thomas Pellegrini ·

Nous avons effectu{\'e} une classification automatique de 44 locuteurs {\`a} partir de r{\'e}seaux de neurones convolutifs (CNN) sur la base de spectrogrammes {\`a} bandes larges calcul{\'e}s sur des s{\'e}quences de 2 secondes extraites d{'}un corpus de parole spontan{\'e}e (NCCFr). Apr{\`e}s obtention d{'}un taux de classification moyen de 93,7 {\%}, les diff{\'e}rentes classes phon{\'e}miques composant chaque s{\'e}quence ont {\'e}t{\'e} masqu{\'e}es afin de tester leur impact sur le mod{\`e}le. Les r{\'e}sultats montrent que les voyelles orales influent avant toute autre classe sur le taux de classification, suivies ensuite par les occlusives orales. Ces r{\'e}sultats sont expliqu{\'e}s principalement par la repr{\'e}sentation temporelle pr{\'e}dominante des voyelles orales. Une variabilit{\'e} inter-locuteurs se manifeste par l{'}existence de locuteurs attracteurs qui attirent un grand nombre de faux positifs et qui ne sont pas sensibles au masquage effectu{\'e}. Nous mettons en avant dans la discussion des r{\'e}alisations acoustiques qui pourraient expliquer les sp{\'e}cificit{\'e}s de ces locuteurs.

PDF Abstract