D\'etection automatique de phrases parall\`eles dans un corpus biom\'edical comparable technique / simplifi\'e (Automatic detection of parallel sentences in comparable biomedical corpora)
Les phrases parall{\`e}les contiennent des informations identiques ou tr{\`e}s proches s{\'e}mantiquement et offrent des indications importantes sur le fonctionnement de la langue. Lorsque les phrases sont diff{\'e}renci{\'e}es par leur registre (comme expert vs. non-expert), elles peuvent {\^e}tre exploit{\'e}es pour la simplification automatique de textes. Le but de la simplification automatique est d{'}am{\'e}liorer la compr{\'e}hension de textes. Par exemple, dans le domaine biom{\'e}dical, la simplification peut permettre aux patients de mieux comprendre les textes relatifs {\`a} leur sant{\'e}. Il existe cependant tr{\`e}s peu de ressources pour la simplification en fran{\c{c}}ais. Nous proposons donc d{'}exploiter des corpus comparables, diff{\'e}renci{\'e}s par leur technicit{\'e}, pour y d{\'e}tecter des phrases parall{\`e}les et les aligner. Les donn{\'e}es de r{\'e}f{\'e}rence sont cr{\'e}{\'e}es manuellement et montrent un accord inter-annotateur de 0,76. Nous exp{\'e}rimentons sur des donn{\'e}es {\'e}quilibr{\'e}es et d{\'e}s{\'e}quilibr{\'e}es. La F-mesure sur les donn{\'e}es {\'e}quilibr{\'e}es atteint jusqu{'}{\`a} 0,94. Sur les donn{\'e}es d{\'e}s{\'e}quilibr{\'e}es, les r{\'e}sultats sont plus faibles (jusqu{'}{\`a} 0,92 de F-mesure) mais restent comp{\'e}titifs lorsque les mod{\`e}les sont entra{\^\i}n{\'e}s sur les donn{\'e}es {\'e}quilibr{\'e}es.
PDF Abstract