Combien d'exemples de tests sont-ils n\'ecessaires \`a une \'evaluation fiable ? Quelques observations sur l'\'evaluation de l'analyse morphosyntaxique du fran\ccais. (Some observations on the evaluation of PoS taggers)

JEPTALNRECITAL 2019 · Guillaume Wisniewski ·

L{'}objectif de ce travail est de pr{\'e}senter plusieurs observations, sur l{'}{\'e}valuation des analyseurs morphosyntaxique en fran{\c{c}}ais, visant {\`a} remettre en cause le cadre habituel de l{'}apprentissage statistique dans lequel les ensembles de test et d{'}apprentissage sont fix{\'e}s arbitrairement et ind{\'e}pendemment du mod{\`e}le consid{\'e}r{\'e}. Nous montrons qu{'}il est possible de consid{\'e}rer des ensembles de test plus petits que ceux g{\'e}n{\'e}ralement utilis{\'e}s sans cons{\'e}quences sur la qualit{\'e} de l{'}{\'e}valuation. Les exemples ainsi « {\'e}conomis{\'e}s » peuvent {\^e}tre utilis{\'e}s en apprentissage pour am{\'e}liorer les performances des syst{\`e}mes notamment dans des t{\^a}ches d{'}adaptation au domaine.

PDF Abstract