Calcul de similarit\'e entre phrases : quelles mesures et quels descripteurs ? (Sentence Similarity : a study on similarity metrics with words and character strings )
Cet article pr{\'e}sente notre participation {\`a} l{'}{\'e}dition 2020 du D{\'e}fi Fouille de Textes DEFT 2020 et plus pr{\'e}cis{\'e}ment aux deux t{\^a}ches ayant trait {\`a} la similarit{\'e} entre phrases. Dans notre travail nous nous sommes int{\'e}ress{\'e} {\`a} deux questions : celle du choix de la mesure du similarit{\'e} d{'}une part et celle du choix des op{\'e}randes sur lesquelles se porte la mesure de similarit{\'e}. Nous avons notamment {\'e}tudi{\'e} la question de savoir s{'}il fallait utiliser des mots ou des cha{\^\i}nes de caract{\`e}res (mots ou non-mots). Nous montrons d{'}une part que la similarit{\'e} de Bray-Curtis peut {\^e}tre plus efficace et surtout plus stable que la similarit{\'e} cosinus et d{'}autre part que le calcul de similarit{\'e} sur des cha{\^\i}nes de caract{\`e}res est plus efficace que le m{\^e}me calcul sur des mots.
PDF Abstract