Identification des probl\`emes d'annotation pour l'extraction de relations (Identification of annotation problem for the relation extraction)
L{'}annotation d{'}un corpus est une t{\^a}che difficile et laborieuse, notamment sur des textes de sp{\'e}cialit{\'e} comme les textes biom{\'e}dicaux. Ainsi, dans un contexte comme l{'}extraction des interactions alimentm{\'e}dicament (FDI), l{'}annotation du corpus POMELO a {\'e}t{\'e} r{\'e}alis{\'e}e par un seul annotateur et pr{\'e}sente des risques d{'}erreur. Dans cet article, nous proposons d{'}identifier ces probl{\`e}mes d{'}annotation en utilisant un corpus Silver Standard (CSS) que nous {\'e}tablissons {\`a} partir d{'}un vote majoritaire parmi les annotations propos{\'e}es par des mod{\`e}les entra{\^\i}n{\'e}s sur un domaine similaire (interaction m{\'e}dicamentm{\'e}dicament {--} DDI) et l{'}annotation manuelle {\`a} {\'e}valuer. Les r{\'e}sultats obtenus montrent que l{'}annotation dans POMELO est consid{\'e}rablement {\'e}loign{\'e}e du CSS. L{'}analyse des erreurs permet d{'}en identifier les principales causes et de proposer des solutions pour corriger l{'}annotation existante.
PDF Abstract