Classification automatique de dict\'ees selon leur niveau de difficult\'e de compr\'ehension et orthographique (Automatic classification of dictations according to their complexity for comprehension and writing production)
Cet article pr{\'e}sente une approche visant {\`a} {\'e}valuer automatiquement la difficult{\'e} de dict{\'e}es en vue de les int{\'e}grer dans une plateforme d{'}apprentissage de l{'}orthographe. La particularit{\'e} de l{'}exercice de la dict{\'e}e est de devoir percevoir du code oral et de le retranscrire via le code {\'e}crit. Nous envisageons ce double niveau de difficult{\'e} {\`a} l{'}aide de 375 variables mesurant la difficult{\'e} de compr{\'e}hension d{'}un texte ainsi que les ph{\'e}nom{\`e}nes orthographiques et grammaticaux complexes qu{'}il contient. Un sous-ensemble optimal de ces variables est combin{\'e} {\`a} l{'}aide d{'}un mod{\`e}le par machines {\`a} vecteurs de support (SVM) qui classe correctement 56{\%} des textes. Les variables lexicales bas{\'e}es sur la liste orthographique de Catach (1984) se r{\'e}v{\`e}lent les plus informatives pour le mod{\`e}le.
PDF Abstract