Construction conjointe d'un corpus et d'un classifieur pour les registres de langue en fran\ccais (Joint building of a corpus and a classifier for language registers in French)
Les registres de langue sont un trait stylistique marquant dans l{'}appr{\'e}ciation d{'}un texte ou d{'}un discours. Cependant, il sont encore peu {\'e}tudi{\'e}s en traitement automatique des langues. Dans cet article, nous pr{\'e}sentons une approche semi-supervis{\'e}e permettant la construction conjointe d{'}un corpus de textes {\'e}tiquet{\'e}s en registres et d{'}un classifieur associ{\'e}. Cette approche s{'}appuie sur un ensemble initial et restreint de donn{\'e}es expertes. Via une collecte automatique et massive de pages web, l{'}approche proc{\`e}de par it{\'e}rations en alternant l{'}apprentissage d{'}un classifieur interm{\'e}diaire et l{'}annotation de nouveaux textes pour augmenter le corpus {\'e}tiquet{\'e}. Nous appliquons cette approche aux registres familier, courant et soutenu. {\`A} l{'}issue du processus de construction, le corpus {\'e}tiquet{\'e} regroupe 800 000 textes et le classifieur, un r{\'e}seau de neurones, pr{\'e}sente un taux de bonne classification de 87 {\%}.
PDF Abstract