D\'etection automatique de phrases en domaine de sp\'ecialit\'e en fran\ccais (Sentence boundary detection for specialized domains in French )

JEPTALNRECITAL 2018 · Arthur Boyer, Aur{\'e}lie N{\'e}v{\'e}ol ·

La d{\'e}tection de fronti{\`e}res de phrase est g{\'e}n{\'e}ralement consid{\'e}r{\'e} comme un probl{\`e}me r{\'e}solu. Cependant, les outils performant sur des textes en domaine g{\'e}n{\'e}ral, ne le sont pas forcement sur des domaines sp{\'e}cialis{\'e}s, ce qui peut engendrer des d{\'e}gradations de performance des outils intervenant en aval dans une cha{\^\i}ne de traitement automatique s{'}appuyant sur des textes d{\'e}coup{\'e}s en phrases. Dans cet article, nous {\'e}valuons 5 outils de segmentation en phrase sur 3 corpus issus de diff{\'e}rent domaines. Nous r{\'e}-entrainerons l{'}un de ces outils sur un corpus de sp{\'e}cialit{\'e} pour {\'e}tudier l{'}adaptation en domaine. Notamment, nous utilisons un nouveau corpus biom{\'e}dical annot{\'e} sp{\'e}cifiquement pour cette t{\^a}che. La detection de fronti{\`e}res de phrase {\`a} l{'}aide d{'}un mod{\`e}le OpenNLP entra{\^\i}n{\'e} sur un corpus clinique offre une F-mesure de .73, contre .66 pour la version standard de l{'}outil.

PDF Abstract