Vers une solution l\'eg\`ere de production de donn\'ees pour le TAL : cr\'eation d'un tagger de l'alsacien par crowdsourcing b\'en\'evole (Toward a lightweight solution to the language resources bottleneck issue: creating a POS tagger for Alsatian using voluntary crowdsourcing)

Nous pr{\'e}sentons ici les r{\'e}sultats d{'}une exp{\'e}rience men{\'e}e sur l{'}annotation en parties du discours d{'}un corpus d{'}une langue r{\'e}gionale encore peu dot{\'e}e, l{'}alsacien, via une plateforme de myriadisation (crowdsourcing) b{\'e}n{\'e}vole d{\'e}velopp{\'e}e sp{\'e}cifiquement {\`a} cette fin : Bisame1 . La plateforme, mise en ligne en mai 2016, nous a permis de recueillir 15 846 annotations gr{\^a}ce {\`a} 42 participants. L{'}{\'e}valuation des annotations, r{\'e}alis{\'e}e sur un corpus de r{\'e}f{\'e}rence, montre que la F-mesure des annotations volontaires est de 0, 93. Le tagger entra{\^\i}n{\'e} sur le corpus annot{\'e} atteint lui 82 {\%} d{'}exactitude. Il s{'}agit du premier tagger sp{\'e}cifique {\`a} l{'}alsacien. Cette m{\'e}thode de d{\'e}veloppement de ressources langagi{\`e}res est donc efficace et prometteuse pour certaines langues peu dot{\'e}es, dont un nombre suffisant de locuteurs est connect{\'e} et actif sur le Web. Le code de la plateforme, le corpus annot{\'e} et le tagger sont librement disponibles.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here