L'\'evaluation des repr\'esentations vectorielles de mots en utilisant WordNet (Evaluating word representations using WordNet)
Les m{\'e}thodes d{'}{\'e}valuation actuelles des repr{\'e}sentations vectorielles de mots utilisent g{\'e}n{\'e}ralement un jeu de donn{\'e}es restreint et biais{\'e}. Pour pallier {\`a} ce probl{\`e}me nous pr{\'e}sentons une nouvelle approche, bas{\'e}e sur la similarit{\'e} entre les synsets associ{\'e}s aux mots dans la volumineuse base de donn{\'e}es lexicale WordNet. Notre m{\'e}thode d{'}{\'e}valuation consiste dans un premier temps {\`a} classer automatiquement les repr{\'e}sentions vectorielles de mots {\`a} l{'}aide d{'}un algorithme de clustering, puis {\`a} {\'e}valuer la coh{\'e}rence s{\'e}mantique et syntaxique des clusters produits. Cette {\'e}valuation est effectu{\'e}e en calculant la similarit{\'e} entre les mots de chaque cluster, pris deux {\`a} deux, en utilisant des mesures de similarit{\'e} entre les mots dans WordNet propos{\'e}es par NLTK (wup {\_}similarity). Nous obtenons, pour chaque cluster, une valeur entre 0 et 1. Un cluster dont la valeur est 1 est un cluster dont tous les mots appartiennent au m{\^e}me synset. Nous calculons ensuite la moyenne des mesures de tous les clusters. Nous avons utilis{\'e} notre nouvelle approche pour {\'e}tudier et comparer trois m{\'e}thodes de repr{\'e}sentations vectorielles : une m{\'e}thode traditionnelle, WebSOM et deux m{\'e}thodes r{\'e}centes, word2vec (Skip-Gram et CBOW) et GloVe, sur trois corpus : en anglais, en fran{\c{c}}ais et en arabe.
PDF Abstract