Mesurer la similarit\'e entre phrases gr\^ace \`a Wikip\'edia en utilisant une indexation al\'eatoire
Cet article pr{\'e}sente une m{\'e}thode pour mesurer la similarit{\'e} s{\'e}mantique entre phrases qui utilise Wikip{\'e}dia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Bas{\'e}e sur une repr{\'e}sentation vectorielle, elle utilise une indexation al{\'e}atoire pour r{\'e}duire la dimension des espaces manipul{\'e}s. En outre, elle inclut une technique de calcul des vecteurs de termes qui corrige les d{\'e}fauts engendr{\'e}s par l{'}utilisation d{'}un corpus aussi g{\'e}n{\'e}ral que Wikip{\'e}dia. Le syst{\`e}me a {\'e}t{\'e} {\'e}valu{\'e} sur les donn{\'e}es de SemEval 2014 en anglais avec des r{\'e}sultats tr{\`e}s encourageants, au-dessus du niveau moyen des syst{\`e}mes en comp{\'e}tition. Il a {\'e}galement {\'e}t{\'e} test{\'e} sur un ensemble de paires de phrases en fran{\c{c}}ais, {\`a} partir de ressources que nous avons construites et qui seront mises {\`a} la libre disposition de la communaut{\'e} scientifique.
PDF Abstract