Influence de la quantit\'e de donn\'ees sur une t\^ache de segmentation de phones fond\'ee sur les r\'eseaux de neurones (Phone-level speech segmentation with neural networks : influence of the amount of data )
Dans cet article, nous d{\'e}crivons une {\'e}tude exp{\'e}rimentale de segmentation de parole en unit{\'e}s acoustiques sous-lexicales (phones) {\`a} l{'}aide de r{\'e}seaux de neurones. Sur le corpus de parole spontan{\'e}e d{'}anglais am{\'e}ricain BUCKEYE, une F-mesure de 68{\%} a {\'e}t{\'e} obtenue {\`a} l{'}aide d{'}un r{\'e}seau convolutif, en consid{\'e}rant une marge d{'}erreur de 10 ms. Cette performance est sup{\'e}rieure {\`a} celle d{'}un annotateur manuel, l{'}accord inter-annotateurs {\'e}tant de 62{\%}. Restreindre les donn{\'e}es d{'}apprentissage {\`a} celles d{'}un unique locuteur, 30 minutes environ, a eu pour cons{\'e}quence moins de 10{\%} de perte et utiliser celles de 5 locuteurs a permis d{'}atteindre des r{\'e}sultats similaires {\`a} utiliser plus de donn{\'e}es. Utiliser le mod{\`e}le entra{\^\i}n{\'e} avec le corpus anglais sur un petit corpus d{'}une langue peu dot{\'e}e a donn{\'e} des r{\'e}sultats comparables {\`a} estimer un mod{\`e}le avec des donn{\'e}es de cette langue.
PDF Abstract