Un corpus libre, \'evolutif et versionn\'e en entit\'es nomm\'ees du Fran\ccais (A free, evolving and versioned french named entity recognition corpus)

JEPTALNRECITAL 2019 · Yoann Dupont ·

Les corpus annot{\'e}s sont des ressources difficiles {\`a} cr{\'e}er en raison du grand effort humain qu{'}elles impliquent. Une fois rendues disponibles, elles sont difficilement modifiables et tendent {\`a} ne pas {\'e}voluer pas dans le temps. Dans cet article, nous pr{\'e}sentons un corpus annot{\'e} pour la reconnaissance des entit{\'e}s nomm{\'e}es libre et {\'e}volutif en utilisant les textes d{'}articles Wikinews fran{\c{c}}ais de 2016 {\`a} 2018, pour un total de 1191 articles annot{\'e}s. Nous d{\'e}crivons succinctement le guide d{'}annotation avant de situer notre corpus par rapport {\`a} d{'}autres corpus d{\'e}j{\`a} existants. Nous donnerons {\'e}galement un accord intra-annotateur afin de donner un indice de stabilit{\'e} des annotations ainsi que le processus global pour poursuivre les travaux d{'}enrichissement du corpus.

PDF Abstract