Mesurer la similarit\'e entre phrases gr\^ace \`a Wikip\'edia en utilisant une indexation al\'eatoire

Cet article pr{\'e}sente une m{\'e}thode pour mesurer la similarit{\'e} s{\'e}mantique entre phrases qui utilise Wikip{\'e}dia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Bas{\'e}e sur une repr{\'e}sentation vectorielle, elle utilise une indexation al{\'e}atoire pour r{\'e}duire la dimension des espaces manipul{\'e}s. En outre, elle inclut une technique de calcul des vecteurs de termes qui corrige les d{\'e}fauts engendr{\'e}s par l{'}utilisation d{'}un corpus aussi g{\'e}n{\'e}ral que Wikip{\'e}dia. Le syst{\`e}me a {\'e}t{\'e} {\'e}valu{\'e} sur les donn{\'e}es de SemEval 2014 en anglais avec des r{\'e}sultats tr{\`e}s encourageants, au-dessus du niveau moyen des syst{\`e}mes en comp{\'e}tition. Il a {\'e}galement {\'e}t{\'e} test{\'e} sur un ensemble de paires de phrases en fran{\c{c}}ais, {\`a} partir de ressources que nous avons construites et qui seront mises {\`a} la libre disposition de la communaut{\'e} scientifique.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here