Calcul de similarit\'e entre phrases : quelles mesures et quels descripteurs ? (Sentence Similarity : a study on similarity metrics with words and character strings )

Cet article pr{\'e}sente notre participation {\`a} l{'}{\'e}dition 2020 du D{\'e}fi Fouille de Textes DEFT 2020 et plus pr{\'e}cis{\'e}ment aux deux t{\^a}ches ayant trait {\`a} la similarit{\'e} entre phrases. Dans notre travail nous nous sommes int{\'e}ress{\'e} {\`a} deux questions : celle du choix de la mesure du similarit{\'e} d{'}une part et celle du choix des op{\'e}randes sur lesquelles se porte la mesure de similarit{\'e}. Nous avons notamment {\'e}tudi{\'e} la question de savoir s{'}il fallait utiliser des mots ou des cha{\^\i}nes de caract{\`e}res (mots ou non-mots). Nous montrons d{'}une part que la similarit{\'e} de Bray-Curtis peut {\^e}tre plus efficace et surtout plus stable que la similarit{\'e} cosinus et d{'}autre part que le calcul de similarit{\'e} sur des cha{\^\i}nes de caract{\`e}res est plus efficace que le m{\^e}me calcul sur des mots.

PDF Abstract
No code implementations yet. Submit your code now

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here