Vers un corpus optimal pour la fouille de textes : strat\'egie de constitution de corpus sp\'ecialis\'es \`a partir d'ISTEX (Towards an optimal corpus for text mining: specialized corpus building strategy from ISTEX)

Pr{\'e}alable indispensable {\`a} de nombreuses activit{\'e}s de TAL et de fouille de textes, l{'}{\'e}laboration d{'}un corpus peut n{\'e}cessiter plusieurs phases de traitement pour am{\'e}liorer sa qualit{\'e} et ainsi obtenir les meilleurs r{\'e}sultats d{'}analyse automatique. Les post-traitements appliqu{\'e}s {\`a} un tel corpus, notamment pour garantir la pertinence de son contenu et l{'}homog{\'e}n{\'e}it{\'e} de son format, pourront s{'}av{\'e}rer d{'}autant plus co{\^u}teux et fastidieux que la construction du corpus de travail aura {\'e}t{\'e} impr{\'e}cise. Cette d{\'e}monstration se proposera de tirer parti de la plateforme ISTEX et de ses services associ{\'e}s pour constituer, au travers d{'}un cycle it{\'e}ratif, un corpus homog{\`e}ne de publications scientifiquement pertinentes pour une utilisation simplifi{\'e}e par des outils de fouille.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here