Analyse d'une t\^ache de substitution lexicale : quelles sont les sources de difficult\'e ? (Difficulty analysis for a lexical substitution task)
Nous proposons dans cet article une analyse des r{\'e}sultats de la campagne SemDis 2014 qui proposait une t{\^a}che de substitution lexicale en fran{\c{c}}ais. Pour les 300 phrases du jeu de test, des annotateurs ont propos{\'e} des substituts {\`a} un mot cible, permettant ainsi d{'}{\'e}tablir un gold standard sur lequel les syst{\`e}mes participants ont {\'e}t{\'e} {\'e}valu{\'e}s. Nous cherchons {\`a} identifier les principales caract{\'e}ristiques des items du jeu de test qui peuvent expliquer les variations de performance pour les humains comme pour les syst{\`e}mes, en nous basant sur l{'}accord inter-annotateurs des premiers et les scores de rappel des seconds. Nous montrons que si plusieurs caract{\'e}ristiques communes sont associ{\'e}es aux deux types de difficult{\'e} (raret{\'e} du sens dans lequel le mot-cible est employ{\'e}, fr{\'e}quence d{'}emploi du mot-cible), d{'}autres sont sp{\'e}cifiques aux syst{\`e}mes (degr{\'e} de polys{\'e}mie du mot-cible, complexit{\'e} syntaxique).
PDF Abstract