Mod\`eles en Caract\`eres pour la D\'etection de Polarit\'e dans les Tweets (Character-level Models for Polarity Detection in Tweets )

Dans cet article, nous pr{\'e}sentons notre contribution au D{\'e}fi Fouille de Textes 2018 au travers de trois m{\'e}thodes originales pour la classification th{\'e}matique et la d{\'e}tection de polarit{\'e} dans des tweets en fran{\c{c}}ais. Nous y avons ajout{\'e} un syst{\`e}me de vote. Notre premi{\`e}re m{\'e}thode est fond{\'e}e sur des lexiques (mots et emojis), les n-grammes de caract{\`e}res et un classificateur {\`a} vaste marge (ou SVM). tandis que les deux autres sont des m{\'e}thodes endog{\`e}nes fond{\'e}es sur l{'}extraction de caract{\'e}ristiques au grain caract{\`e}res : un mod{\`e}le {\`a} m{\'e}moire {\`a} court-terme persistante (ou BiLSTM pour Bidirectionnal Long Short-Term Memory) et perceptron multi-couche d{'}une part et un mod{\`e}le de s{\'e}quences de caract{\`e}res ferm{\'e}es fr{\'e}quentes et classificateur SVM d{'}autre part. Le BiLSTM a produit de loin les meilleurs r{\'e}sultats puisqu{'}il a obtenu la premi{\`e}re place sur la t{\^a}che 1, classification binaire de tweets selon qu{'}ils traitent ou non des transports, et la troisi{\`e}me place sur la t{\^a}che 2, classification de la polarit{\'e} en 4 classes. Ce r{\'e}sultat est d{'}autant plus int{\'e}ressant que la m{\'e}thode propos{\'e}e est faiblement param{\'e}trique, totalement endog{\`e}ne et qu{'}elle n{'}implique aucun pr{\'e}-traitement.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here