Mise au point d'une m\'ethode d'annotation morphosyntaxique fine du serbe (Developping a method for detailed morphosyntactic tagging of Serbian)
Cet article pr{\'e}sente une exp{\'e}rience d{'}annotation morphosyntaxique fine du volet serbe du corpus parall{\`e}le ParCoLab (corpus serbe-fran{\c{c}}ais-anglais). Elle a consist{\'e} {\`a} enrichir une annotation existante en parties du discours avec des traits morphosyntaxiques fins, afin de pr{\'e}parer une {\'e}tape ult{\'e}rieure de parsing. Nous avons compar{\'e} trois approches : 1) annotation manuelle ; 2) pr{\'e}annotation avec un {\'e}tiqueteur entra{\^\i}n{\'e} sur le croate suivie d{'}une correction manuelle ; 3) r{\'e}entra{\^\i}nement de l{'}outil sur un petit {\'e}chantillon valid{\'e} du corpus, suivi de l{'}annotation automatique et de la correction manuelle. Le mod{\`e}le croate maintient une stabilit{\'e} globale en passant au serbe, mais les diff{\'e}rences entre les deux jeux d{'}{\'e}tiquettes exigent des interventions manuelles importantes. Le mod{\`e}le r{\'e}-entra{\^\i}n{\'e} sur un {\'e}chantillon de taille limit{\'e} (20K tokens) atteint la m{\^e}me exactitude que le mod{\`e}le existant et le gain de temps observ{\'e} montre que cette m{\'e}thode optimise la phase de correction.
PDF Abstract