D\'etection de concepts et granularit\'e de l'annotation (Concept detection and annotation granularity )
Nous nous int{\'e}ressons ici {\`a} une t{\^a}che de d{\'e}tection de concepts dans des textes sans exigence particuli{\`e}re de passage par une phase de d{\'e}tection d{'}entit{\'e}s avec leurs fronti{\`e}res. Il s{'}agit donc d{'}une t{\^a}che de cat{\'e}gorisation de textes multi{\'e}tiquette, avec des jeux de donn{\'e}es annot{\'e}s au niveau des textes entiers. Nous faisons l{'}hypoth{\`e}se qu{'}une annotation {\`a} un niveau de granularit{\'e} plus fin, typiquement au niveau de l{'}{\'e}nonc{\'e}, devrait am{\'e}liorer la performance d{'}un d{\'e}tecteur automatique entra{\^\i}n{\'e} sur ces donn{\'e}es. Nous examinons cette hypoth{\`e}se dans le cas de textes courts particuliers : des certificats de d{\'e}c{\`e}s o{\`u} l{'}on cherche {\`a} reconna{\^\i}tre des diagnostics, avec des jeux de donn{\'e}es initialement annot{\'e}s au niveau du certificat entier. Nous constatons qu{'}une annotation au niveau de la « ligne » am{\'e}liore effectivement les r{\'e}sultats, mais aussi que le simple fait d{'}appliquer au niveau de la ligne un classifieur entra{\^\i}n{\'e} au niveau du texte est d{\'e}j{\`a} une source d{'}am{\'e}lioration.
PDF Abstract