D\'Efi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )
Cet article pr{\'e}sente la contribution de l{'}{\'e}quipe du Laboratoire de G{\'e}nie Informatique et d{'}Ing{\'e}nierie de Production (LGI2P) d{'}IMT Mines Al{\`e}s au D{\'E}fi Fouille de Textes (DEFT) 2019. Il d{\'e}taille en particulier deux approches propos{\'e}es pour les t{\^a}ches li{\'e}es {\`a} (1) l{'}indexation et {\`a} (2) la similarit{\'e} de documents. Ces m{\'e}thodes reposent sur des techniques robustes et {\'e}prouv{\'e}es du domaine de la Recherche d{'}Information et du Traitement Automatique du Langage Naturel, qui ont {\'e}t{\'e} adapt{\'e}es {\`a} la nature sp{\'e}cifique du corpus (biom{\'e}dical/clinique) et coupl{\'e}es {\`a} des m{\'e}canismes d{\'e}velopp{\'e}s pour r{\'e}pondre aux sp{\'e}cificit{\'e}s des t{\^a}ches trait{\'e}es. Pour la t{\^a}che 1, nous proposons une m{\'e}thode d{'}indexation par extraction appliqu{\'e}e sur une version normalis{\'e}e du corpus (MAP de 0,48 {\`a} l{'}{\'e}valuation) ; les sp{\'e}cificit{\'e}s de la phase de normalisation seront en particulier d{\'e}taill{\'e}es. Pour la t{\^a}che 2, au-del{\`a} de la pr{\'e}sentation de l{'}approche propos{\'e}e bas{\'e}e sur l{'}{\'e}valuation de similarit{\'e}s sur des repr{\'e}sentations de documents (score de 0,91 {\`a} l{'}{\'e}valuation), nous proposons une {\'e}tude comparative de l{'}impact des choix de la distance et de la mani{\`e}re de repr{\'e}senter les textes sur la performance de l{'}approche.
PDF Abstract