Une approche linguistique pour la d\'etection des dialectes arabes (A linguistic approach for the detection of Arabic dialects)
Dans cet article, nous pr{\'e}sentons un processus d{'}identification automatique de l{'}origine dialectale pour la langue arabe de textes {\'e}crits en caract{\`e}res arabes ou en {\'e}criture latine (arabizi). Nous d{\'e}crivons le processus d{'}annotation des ressources construites et du syst{\`e}me de translitt{\'e}ration adopt{\'e}. Deux approches d{'}identification de la langue sont compar{\'e}es : la premi{\`e}re est linguistique et exploite des dictionnaires, la seconde est statistique et repose sur des m{\'e}thodes traditionnelles d{'}apprentissage automatique (n-grammes). L{'}{\'e}valuation de ces approches montre que la m{\'e}thode linguistique donne des r{\'e}sultats satisfaisants, sans {\^e}tre d{\'e}pendante des corpus d{'}apprentissage.
PDF Abstract