D\'Efi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )

JEPTALNRECITAL 2019 · Jean-Christophe Mensonides, Pierre-Antoine Jean, Andon Tchechmedjiev, S{\'e}bastien Harispe ·

Cet article pr{\'e}sente la contribution de l{'}{\'e}quipe du Laboratoire de G{\'e}nie Informatique et d{'}Ing{\'e}nierie de Production (LGI2P) d{'}IMT Mines Al{\`e}s au D{\'E}fi Fouille de Textes (DEFT) 2019. Il d{\'e}taille en particulier deux approches propos{\'e}es pour les t{\^a}ches li{\'e}es {\`a} (1) l{'}indexation et {\`a} (2) la similarit{\'e} de documents. Ces m{\'e}thodes reposent sur des techniques robustes et {\'e}prouv{\'e}es du domaine de la Recherche d{'}Information et du Traitement Automatique du Langage Naturel, qui ont {\'e}t{\'e} adapt{\'e}es {\`a} la nature sp{\'e}cifique du corpus (biom{\'e}dical/clinique) et coupl{\'e}es {\`a} des m{\'e}canismes d{\'e}velopp{\'e}s pour r{\'e}pondre aux sp{\'e}cificit{\'e}s des t{\^a}ches trait{\'e}es. Pour la t{\^a}che 1, nous proposons une m{\'e}thode d{'}indexation par extraction appliqu{\'e}e sur une version normalis{\'e}e du corpus (MAP de 0,48 {\`a} l{'}{\'e}valuation) ; les sp{\'e}cificit{\'e}s de la phase de normalisation seront en particulier d{\'e}taill{\'e}es. Pour la t{\^a}che 2, au-del{\`a} de la pr{\'e}sentation de l{'}approche propos{\'e}e bas{\'e}e sur l{'}{\'e}valuation de similarit{\'e}s sur des repr{\'e}sentations de documents (score de 0,91 {\`a} l{'}{\'e}valuation), nous proposons une {\'e}tude comparative de l{'}impact des choix de la distance et de la mani{\`e}re de repr{\'e}senter les textes sur la performance de l{'}approche.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

SENTER

Datasets

Add Datasets introduced or used in this paper

Results from the Paper

Add Remove

Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

D\'Efi Fouille de Textes 2019 : indexation par extraction et appariement textuel (DEFT 2019 : extraction-based document indexing and textual document similarity matching )

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove