Mise au point d'une m\'ethode d'annotation morphosyntaxique fine du serbe (Developping a method for detailed morphosyntactic tagging of Serbian)

Cet article pr{\'e}sente une exp{\'e}rience d{'}annotation morphosyntaxique fine du volet serbe du corpus parall{\`e}le ParCoLab (corpus serbe-fran{\c{c}}ais-anglais). Elle a consist{\'e} {\`a} enrichir une annotation existante en parties du discours avec des traits morphosyntaxiques fins, afin de pr{\'e}parer une {\'e}tape ult{\'e}rieure de parsing. Nous avons compar{\'e} trois approches : 1) annotation manuelle ; 2) pr{\'e}annotation avec un {\'e}tiqueteur entra{\^\i}n{\'e} sur le croate suivie d{'}une correction manuelle ; 3) r{\'e}entra{\^\i}nement de l{'}outil sur un petit {\'e}chantillon valid{\'e} du corpus, suivi de l{'}annotation automatique et de la correction manuelle. Le mod{\`e}le croate maintient une stabilit{\'e} globale en passant au serbe, mais les diff{\'e}rences entre les deux jeux d{'}{\'e}tiquettes exigent des interventions manuelles importantes. Le mod{\`e}le r{\'e}-entra{\^\i}n{\'e} sur un {\'e}chantillon de taille limit{\'e} (20K tokens) atteint la m{\^e}me exactitude que le mod{\`e}le existant et le gain de temps observ{\'e} montre que cette m{\'e}thode optimise la phase de correction.

PDF Abstract
No code implementations yet. Submit your code now

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here