D\'etection des mots non-standards dans les tweets avec des r\'eseaux de neurones (Detecting non-standard words in tweets with neural networks)

Dans cet article, nous proposons un mod{\`e}le pour d{\'e}tecter dans les textes g{\'e}n{\'e}r{\'e}s par des utilisateurs (en particulier les tweets), les mots non-standards {\`a} corriger. Nous utilisons pour cela des r{\'e}seaux de neurones convolutifs au niveau des caract{\`e}res, associ{\'e}s {\`a} des {``}plongements{''} (embeddings) des mots pr{\'e}sents dans le contexte du mot courant. Nous avons utilis{\'e} pour l{'}{\'e}valuation trois corpus de r{\'e}f{\'e}rence. Nous avons test{\'e} diff{\'e}rents mod{\`e}les qui varient suivant leurs plongements pr{\'e}-entrain{\'e}s, leurs configurations et leurs optimisations. Nous avons finalement obtenu une F1-mesure de 0.972 en validation crois{\'e}e pour la classe des mots non-standards. Cette d{\'e}tection des mots {\`a} corriger est l{'}{\'e}tape pr{\'e}liminaire pour la normalisation des textes non standards comme les tweets.

PDF Abstract
No code implementations yet. Submit your code now

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here