D\'etection automatique de phrases en domaine de sp\'ecialit\'e en fran\ccais (Sentence boundary detection for specialized domains in French )

La d{\'e}tection de fronti{\`e}res de phrase est g{\'e}n{\'e}ralement consid{\'e}r{\'e} comme un probl{\`e}me r{\'e}solu. Cependant, les outils performant sur des textes en domaine g{\'e}n{\'e}ral, ne le sont pas forcement sur des domaines sp{\'e}cialis{\'e}s, ce qui peut engendrer des d{\'e}gradations de performance des outils intervenant en aval dans une cha{\^\i}ne de traitement automatique s{'}appuyant sur des textes d{\'e}coup{\'e}s en phrases. Dans cet article, nous {\'e}valuons 5 outils de segmentation en phrase sur 3 corpus issus de diff{\'e}rent domaines. Nous r{\'e}-entrainerons l{'}un de ces outils sur un corpus de sp{\'e}cialit{\'e} pour {\'e}tudier l{'}adaptation en domaine. Notamment, nous utilisons un nouveau corpus biom{\'e}dical annot{\'e} sp{\'e}cifiquement pour cette t{\^a}che. La detection de fronti{\`e}res de phrase {\`a} l{'}aide d{'}un mod{\`e}le OpenNLP entra{\^\i}n{\'e} sur un corpus clinique offre une F-mesure de .73, contre .66 pour la version standard de l{'}outil.

PDF Abstract
No code implementations yet. Submit your code now

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here