Repr\'esentation et analyse automatique des discontinuit\'es syntaxiques dans les corpus arbor\'es en constituants du fran\ccais (Representation and parsing of syntactic discontinuities in French constituent treebanks)
Nous pr{\'e}sentons de nouvelles instanciations de trois corpus arbor{\'e}s en constituants du fran{\c{c}}ais, o{\`u} certains ph{\'e}nom{\`e}nes syntaxiques {\`a} l{'}origine de d{\'e}pendances {\`a} longue distance sont repr{\'e}sent{\'e}s directement {\`a} l{'}aide de constituants discontinus. Les arbres obtenus rel{\`e}vent de formalismes grammaticaux l{\'e}g{\`e}rement sensibles au contexte (LCFRS). Nous montrons ensuite qu{'}il est possible d{'}analyser automatiquement de telles structures de mani{\`e}re efficace {\`a} condition de s{'}appuyer sur une m{\'e}thode d{'}inf{\'e}rence approximative. Pour cela, nous pr{\'e}sentons un analyseur syntaxique par transitions, qui r{\'e}alise {\'e}galement l{'}analyse morphologique et l{'}{\'e}tiquetage fonctionnel des mots de la phrase. Enfin, nos exp{\'e}riences montrent que la raret{\'e} des ph{\'e}nom{\`e}nes concern{\'e}s dans les donn{\'e}es fran{\c{c}}aises pose des difficult{\'e}s pour l{'}apprentissage et l{'}{\'e}valuation des structures discontinues.
PDF Abstract