La d\'esambiguisation des abr\'eviations du domaine m\'edical (Disambiguation of abbreviations from the medical domain)
Les abr{\'e}viations, tout en {\'e}tant r{\'e}pandues dans la langue, ont une s{\'e}mantique assez opaque car seulement les premi{\`e}res lettres sont transparentes. Cela peut donc emp{\^e}cher la compr{\'e}hension des abr{\'e}viations, et des textes qui les contiennent, par les locuteurs. De plus, certaines abr{\'e}viations sont ambigu{\"e}s en ayant plusieurs sens possibles, ce qui augmente la difficult{\'e} de leur compr{\'e}hension. Nous proposons de travailler avec les abr{\'e}viations de la langue m{\'e}dicale dans un cadre li{\'e} {\`a} la simplification automatique de textes. Dans le processus de simplification, il faut en effet choisir la forme {\'e}tendue des abr{\'e}viations qui soit correcte pour un contexte donn{\'e}. Nous proposons de traiter la d{\'e}sambigu{\"\i}sation d{'}abr{\'e}viations comme un probl{\`e}me de cat{\'e}gorisation supervis{\'e}e. Les descripteurs sont construits {\`a} partir des contextes lexical et syntaxique des abr{\'e}viations. L{'}entra{\^\i}nement est effectu{\'e} sur les phrases qui contiennent les formes {\'e}tendues des abr{\'e}viations. Le test est effectu{\'e} sur un corpus construit manuellement, o{\`u} les bons sens des abr{\'e}viations ont {\'e}t{\'e} d{\'e}finis selon les contextes. Notre approche montre une F-mesure moyenne de 0,888 sur le corpus d{'}entra{\^\i}nement en validation crois{\'e}e et 0,773 sur le corpus de test.
PDF Abstract