Mod\`eles en Caract\`eres pour la D\'etection de Polarit\'e dans les Tweets (Character-level Models for Polarity Detection in Tweets )
Dans cet article, nous pr{\'e}sentons notre contribution au D{\'e}fi Fouille de Textes 2018 au travers de trois m{\'e}thodes originales pour la classification th{\'e}matique et la d{\'e}tection de polarit{\'e} dans des tweets en fran{\c{c}}ais. Nous y avons ajout{\'e} un syst{\`e}me de vote. Notre premi{\`e}re m{\'e}thode est fond{\'e}e sur des lexiques (mots et emojis), les n-grammes de caract{\`e}res et un classificateur {\`a} vaste marge (ou SVM). tandis que les deux autres sont des m{\'e}thodes endog{\`e}nes fond{\'e}es sur l{'}extraction de caract{\'e}ristiques au grain caract{\`e}res : un mod{\`e}le {\`a} m{\'e}moire {\`a} court-terme persistante (ou BiLSTM pour Bidirectionnal Long Short-Term Memory) et perceptron multi-couche d{'}une part et un mod{\`e}le de s{\'e}quences de caract{\`e}res ferm{\'e}es fr{\'e}quentes et classificateur SVM d{'}autre part. Le BiLSTM a produit de loin les meilleurs r{\'e}sultats puisqu{'}il a obtenu la premi{\`e}re place sur la t{\^a}che 1, classification binaire de tweets selon qu{'}ils traitent ou non des transports, et la troisi{\`e}me place sur la t{\^a}che 2, classification de la polarit{\'e} en 4 classes. Ce r{\'e}sultat est d{'}autant plus int{\'e}ressant que la m{\'e}thode propos{\'e}e est faiblement param{\'e}trique, totalement endog{\`e}ne et qu{'}elle n{'}implique aucun pr{\'e}-traitement.
PDF Abstract