Apprentissage automatique d'un mod\`ele de r\'esolution de la cor\'ef\'erence \`a partir de donn\'ees orales transcrites du fran\ccais : le syst\`eme CROC

JEPTALNRECITAL 2015 · Ad{\`e}le D{\'e}soyer, L, Fr{\'e}d{\'e}ric ragin, Isabelle Tellier ·

Cet article pr{\'e}sente CROC 1 (Coreference Resolution for Oral Corpus), un premier syst{\`e}me de r{\'e}solution des cor{\'e}f{\'e}rences en fran{\c{c}}ais reposant sur des techniques d{'}apprentissage automatique. Une des sp{\'e}cificit{\'e}s du syst{\`e}me r{\'e}side dans son apprentissage sur des donn{\'e}es exclusivement orales, {\`a} savoir ANCOR (anaphore et cor{\'e}f{\'e}rence dans les corpus oraux), le premier corpus de fran{\c{c}}ais oral transcrit annot{\'e} en relations anaphoriques. En l{'}{\'e}tat actuel, le syst{\`e}me CROC n{\'e}cessite un rep{\'e}rage pr{\'e}alable des mentions. Nous d{\'e}taillons les choix des traits {--} issus du corpus ou calcul{\'e}s {--} utilis{\'e}s par l{'}apprentissage, et nous pr{\'e}sentons un ensemble d{'}exp{\'e}rimentations avec ces traits. Les scores obtenus sont tr{\`e}s proches de ceux de l{'}{\'e}tat de l{'}art des syst{\`e}mes con{\c{c}}us pour l{'}{\'e}crit. Nous concluons alors en donnant des perspectives sur la r{\'e}alisation d{'}un syst{\`e}me end-to-end valable {\`a} la fois pour l{'}oral transcrit et l{'}{\'e}crit.

PDF Abstract