Attribution d'Auteur : approche multilingue fond\'ee sur les r\'ep\'etitions maximales
Cet article s{'}attaque {\`a} la t{\^a}che d{'}Attribution d{'}Auteur en contexte multilingue. Nous proposons une alternative aux m{\'e}thodes supervis{\'e}es fond{\'e}es sur les n-grammes de caract{\`e}res de longueurs variables : les r{\'e}p{\'e}titions maximales. Pour un texte donn{\'e}, la liste de ses n-grammes de caract{\`e}res contient des informations redondantes. A contrario, les r{\'e}p{\'e}titions maximales repr{\'e}sentent l{'}ensemble des r{\'e}p{\'e}titions de ce texte de mani{\`e}re condens{\'e}e. Nos exp{\'e}riences montrent que la redondance des n-grammes contribue {\`a} l{'}efficacit{\'e} des techniques d{'}Attribution d{'}Auteur exploitant des sous-cha{\^\i}nes de caract{\`e}res. Ce constat pos{\'e}, nous proposons une fonction de pond{\'e}ration sur les traits donn{\'e}s en entr{\'e}e aux classifieurs, en introduisant les r{\'e}p{\'e}titions maximales du n{\`e}me ordre (c{'}est-{\`a}-dire des r{\'e}p{\'e}titions maximales d{\'e}tect{\'e}es dans un ensemble de r{\'e}p{\'e}titions maximales). Les r{\'e}sultats exp{\'e}rimentaux montrent de meilleures performances avec des r{\'e}p{\'e}titions maximales, avec moins de donn{\'e}es que pour les approches fond{\'e}es sur les n-grammes.
PDF Abstract