Etiquetage morpho-syntaxique de tweets avec des CRF
Nous nous int{\'e}ressons dans cet article {\`a} l{'}apprentissage automatique d{'}un {\'e}tiqueteur mopho-syntaxique pour les tweets en anglais. Nous proposons tout d{'}abord un jeu d{'}{\'e}tiquettes r{\'e}duit avec 17 {\'e}tiquettes diff{\'e}rentes, qui permet d{'}obtenir de meilleures performances en exactitude par rapport au jeu d{'}{\'e}tiquettes traditionnel qui contient 45 {\'e}tiquettes. Comme nous disposons de peu de tweets {\'e}tiquet{\'e}s, nous essayons ensuite de compenser ce handicap en ajoutant dans l{'}ensemble d{'}apprentissage des donn{\'e}es issues de textes bien form{\'e}s. Les mod{\`e}les mixtes obtenus permettent d{'}am{\'e}liorer les r{\'e}sultats par rapport aux mod{\`e}les appris avec un seul corpus, qu{'}il soit issu de Twitter ou de textes journalistiques.
PDF Abstract