D\'Efi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )

Cet article pr{\'e}sente la contribution de l{'}{\'e}quipe du Laboratoire de G{\'e}nie Informatique et d{'}Ing{\'e}nierie de Production (LGI2P) d{'}IMT Mines Al{\`e}s au D{\'E}fi Fouille de Textes (DEFT) 2019. Il d{\'e}taille en particulier deux approches propos{\'e}es pour les t{\^a}ches li{\'e}es {\`a} (1) l{'}indexation et {\`a} (2) la similarit{\'e} de documents. Ces m{\'e}thodes reposent sur des techniques robustes et {\'e}prouv{\'e}es du domaine de la Recherche d{'}Information et du Traitement Automatique du Langage Naturel, qui ont {\'e}t{\'e} adapt{\'e}es {\`a} la nature sp{\'e}cifique du corpus (biom{\'e}dical/clinique) et coupl{\'e}es {\`a} des m{\'e}canismes d{\'e}velopp{\'e}s pour r{\'e}pondre aux sp{\'e}cificit{\'e}s des t{\^a}ches trait{\'e}es. Pour la t{\^a}che 1, nous proposons une m{\'e}thode d{'}indexation par extraction appliqu{\'e}e sur une version normalis{\'e}e du corpus (MAP de 0,48 {\`a} l{'}{\'e}valuation) ; les sp{\'e}cificit{\'e}s de la phase de normalisation seront en particulier d{\'e}taill{\'e}es. Pour la t{\^a}che 2, au-del{\`a} de la pr{\'e}sentation de l{'}approche propos{\'e}e bas{\'e}e sur l{'}{\'e}valuation de similarit{\'e}s sur des repr{\'e}sentations de documents (score de 0,91 {\`a} l{'}{\'e}valuation), nous proposons une {\'e}tude comparative de l{'}impact des choix de la distance et de la mani{\`e}re de repr{\'e}senter les textes sur la performance de l{'}approche.

PDF Abstract
No code implementations yet. Submit your code now

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here