Cr\'eation d'un nouveau treebank \`a partir de quatri\`emes de couverture
Nous pr{\'e}sentons ici 4-couv, un nouveau corpus arbor{\'e} d{'}environ 3 500 phrases, constitu{\'e} d{'}un ensemble de quatri{\`e}mes de couverture, {\'e}tiquet{\'e} et analys{\'e} automatiquement puis corrig{\'e} et valid{\'e} {\`a} la main. Il r{\'e}pond {\`a} des besoins sp{\'e}cifiques pour des projets de linguistique exp{\'e}rimentale, et vise {\`a} rester compatible avec les autres treebanks existants pour le fran{\c{c}}ais. Nous pr{\'e}sentons ici le corpus lui-m{\^e}me ainsi que les outils utilis{\'e}s pour les diff{\'e}rentes {\'e}tapes de son {\'e}laboration : choix des textes, {\'e}tiquetage, parsing, correction manuelle.
PDF Abstract