Etiquetage morpho-syntaxique en domaine de sp\'ecialit\'e: le domaine m\'edical
L{'}{\'e}tiquetage morpho-syntaxique est une t{\^a}che fondamentale du Traitement Automatique de la Langue, sur laquelle reposent souvent des traitements plus complexes tels que l{'}extraction d{'}information ou la traduction automatique. L{'}{\'e}tiquetage en domaine de sp{\'e}cialit{\'e} est limit{\'e} par la disponibilit{\'e} d{'}outils et de corpus annot{\'e}s sp{\'e}cifiques au domaine. Dans cet article, nous pr{\'e}sentons le d{\'e}veloppement d{'}un corpus clinique du fran{\c{c}}ais annot{\'e} morpho-syntaxiquement {\`a} l{'}aide d{'}un jeu d{'}{\'e}tiquettes issus des guides d{'}annotation French Treebank et Multitag. L{'}analyse de ce corpus nous permet de caract{\'e}riser le domaine clinique et de d{\'e}gager les points cl{\'e}s pour l{'}adaptation d{'}outils d{'}analyse morpho-syntaxique {\`a} ce domaine. Nous montrons {\'e}galement les limites d{'}un outil entra{\^\i}n{\'e} sur un corpus journalistique appliqu{\'e} au domaine clinique. En perspective de ce travail, nous envisageons une application du corpus clinique annot{\'e} pour am{\'e}liorer l{'}{\'e}tiquetage morpho-syntaxique des documents cliniques en fran{\c{c}}ais.
PDF Abstract