Vers un corpus optimal pour la fouille de textes : strat\'egie de constitution de corpus sp\'ecialis\'es \`a partir d'ISTEX (Towards an optimal corpus for text mining: specialized corpus building strategy from ISTEX)
Pr{\'e}alable indispensable {\`a} de nombreuses activit{\'e}s de TAL et de fouille de textes, l{'}{\'e}laboration d{'}un corpus peut n{\'e}cessiter plusieurs phases de traitement pour am{\'e}liorer sa qualit{\'e} et ainsi obtenir les meilleurs r{\'e}sultats d{'}analyse automatique. Les post-traitements appliqu{\'e}s {\`a} un tel corpus, notamment pour garantir la pertinence de son contenu et l{'}homog{\'e}n{\'e}it{\'e} de son format, pourront s{'}av{\'e}rer d{'}autant plus co{\^u}teux et fastidieux que la construction du corpus de travail aura {\'e}t{\'e} impr{\'e}cise. Cette d{\'e}monstration se proposera de tirer parti de la plateforme ISTEX et de ses services associ{\'e}s pour constituer, au travers d{'}un cycle it{\'e}ratif, un corpus homog{\`e}ne de publications scientifiquement pertinentes pour une utilisation simplifi{\'e}e par des outils de fouille.
PDF Abstract