Apport de l'information temporelle des contextes pour la repr\'esentation vectorielle continue des mots

Les repr{\'e}sentations vectorielles continues des mots sont en plein essor et ont d{\'e}j{\`a} {\'e}t{\'e} appliqu{\'e}es avec succ{\`e}s {\`a} de nombreuses t{\^a}ches en traitement automatique de la langue (TAL). Dans cet article, nous proposons d{'}int{\'e}grer l{'}information temporelle issue du contexte des mots au sein des architectures fond{\'e}es sur les sacs-de-mots continus (continuous bag-of-words ou CBOW) ou sur les Skip-Grams. Ces approches sont manipul{\'e}es au travers d{'}un r{\'e}seau de neurones, l{'}architecture CBOW cherchant alors {\`a} pr{\'e}dire un mot sachant son contexte, alors que l{'}architecture Skip-Gram pr{\'e}dit un contexte sachant un mot. Cependant, ces mod{\`e}les, au travers du r{\'e}seau de neurones, s{'}appuient sur des repr{\'e}sentations en sac-de-mots et ne tiennent pas compte, explicitement, de l{'}ordre des mots. En cons{\'e}quence, chaque mot a potentiellement la m{\^e}me influence dans le r{\'e}seau de neurones. Nous proposons alors une m{\'e}thode originale qui int{\`e}gre l{'}information temporelle des contextes des mots en utilisant leur position relative. Cette m{\'e}thode s{'}inspire des mod{\`e}les contextuels continus. L{'}information temporelle est trait{\'e}e comme coefficient de pond{\'e}ration, en entr{\'e}e du r{\'e}seau de neurones par le CBOW et dans la couche de sortie par le Skip-Gram. Les premi{\`e}res exp{\'e}riences ont {\'e}t{\'e} r{\'e}alis{\'e}es en utilisant un corpus de test mesurant la qualit{\'e} de la relation s{\'e}mantique-syntactique des mots. Les r{\'e}sultats pr{\'e}liminaires obtenus montrent l{'}apport du contexte des mots, avec des gains de 7 et 7,7 points respectivement avec l{'}architecture Skip-Gram et l{'}architecture CBOW.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here