Apprentissage bay\'esien incr\'emental pour la d\'etermination de l'\^age et du genre d'utilisateurs de plateformes du web social (UGC text-based age \& gender author profiling through incrementally semi-supervised bayesian learning)
Les m{\'e}thodes de classification textuelles bas{\'e}es sur l{'}apprentissage automatique ont l{'}avantage, en plus d{'}{\^e}tre robustes, de fournir des r{\'e}sultats satisfaisants, sous r{\'e}serve de disposer d{'}une base d{'}entra{\^\i}nement de qualit{\'e} et en quantit{\'e} suffisante. Les corpus d{'}apprentissage {\'e}tant co{\^u}teux {\`a} construire, leur carence {\`a} grande {\'e}chelle se r{\'e}v{\`e}le {\^e}tre l{'}une des principales causes d{'}erreurs. Dans un contexte industriel {\`a} forte volum{\'e}trie de donn{\'e}es, nous pr{\'e}sentons une approche de pr{\'e}diction des deux plus importants indicateurs socio-d{\'e}mographiques « {\^a}ge » et « genre » appliqu{\'e}e {\`a} des utilisateurs de forums, blogs et r{\'e}seaux sociaux et ce, {\`a} partir de leurs seules productions textuelles. Le mod{\`e}le bay{\'e}sien multinomial est construit {\`a} partir d{'}un processus d{'}apprentissage incr{\'e}mental et it{\'e}ratif sur une vaste base d{'}entra{\^\i}nement semi-supervis{\'e}e. Le caract{\`e}re incr{\'e}mental permet de s{'}affranchir des contraintes de volum{\'e}trie. L{'}aspect it{\'e}ratif a pour objectif d{'}affiner le mod{\`e}le et d{'}augmenter ainsi les niveaux de rappel {\&} pr{\'e}cision.
PDF Abstract