Etude de la reproductibilit\'e des word embeddings : rep\'erage des zones stables et instables dans le lexique (Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space)
Les mod{\`e}les vectoriels de s{\'e}mantique distributionnelle (ou word embeddings), notamment ceux produits par les m{\'e}thodes neuronales, posent des questions de reproductibilit{\'e} et donnent des repr{\'e}sentations diff{\'e}rentes {\`a} chaque utilisation, m{\^e}me sans modifier leurs param{\`e}tres. Nous pr{\'e}sentons ici un ensemble d{'}exp{\'e}rimentations permettant de mesurer cette instabilit{\'e}, {\`a} la fois globalement et localement. Globalement, nous avons mesur{\'e} le taux de variation du voisinage des mots sur trois corpus diff{\'e}rents, qui est estim{\'e} autour de 17{\%} pour les 25 plus proches voisins d{'}un mot. Localement, nous avons identifi{\'e} et caract{\'e}ris{\'e} certaines zones de l{'}espace s{\'e}mantique qui montrent une relative stabilit{\'e}, ainsi que des cas de grande instabilit{\'e}.
PDF Abstract