Bien choisir son outil d'extraction de contenu \`a partir du Web (Choosing the appropriate tool for Web Content Extraction )
Nous proposons une d{\'e}monstration sur l{'}extraction de contenu textuel dans des pages web ainsi que son {\'e}valuation. Nous nous concentrons sur les pages web contenant du texte (articles de presse, magazines en ligne et blogs) et montrons que les textes peuvent varier grandement selon diff{\'e}rentes dimensions : diachronique, g{\'e}ographique et typologique. D{\`e}s lors, les outils et mesures d{'}{\'e}valuation correspondantes sont sujettes {\`a} caution : les indicateurs commun{\'e}ment utilis{\'e}s et cens{\'e}s pr{\'e}sider au choix de l{'}outil appropri{\'e} par les utilisateurs finaux sont {\`a} la fois impr{\'e}cis et difficiles {\`a} interpr{\'e}ter.
PDF Abstract