D\'etection automatique de phrases parall\`eles dans un corpus biom\'edical comparable technique / simplifi\'e (Automatic detection of parallel sentences in comparable biomedical corpora)

JEPTALNRECITAL 2019  ·  Remi Cardon, Natalia Grabar ·

Les phrases parall{\`e}les contiennent des informations identiques ou tr{\`e}s proches s{\'e}mantiquement et offrent des indications importantes sur le fonctionnement de la langue. Lorsque les phrases sont diff{\'e}renci{\'e}es par leur registre (comme expert vs. non-expert), elles peuvent {\^e}tre exploit{\'e}es pour la simplification automatique de textes. Le but de la simplification automatique est d{'}am{\'e}liorer la compr{\'e}hension de textes. Par exemple, dans le domaine biom{\'e}dical, la simplification peut permettre aux patients de mieux comprendre les textes relatifs {\`a} leur sant{\'e}. Il existe cependant tr{\`e}s peu de ressources pour la simplification en fran{\c{c}}ais. Nous proposons donc d{'}exploiter des corpus comparables, diff{\'e}renci{\'e}s par leur technicit{\'e}, pour y d{\'e}tecter des phrases parall{\`e}les et les aligner. Les donn{\'e}es de r{\'e}f{\'e}rence sont cr{\'e}{\'e}es manuellement et montrent un accord inter-annotateur de 0,76. Nous exp{\'e}rimentons sur des donn{\'e}es {\'e}quilibr{\'e}es et d{\'e}s{\'e}quilibr{\'e}es. La F-mesure sur les donn{\'e}es {\'e}quilibr{\'e}es atteint jusqu{'}{\`a} 0,94. Sur les donn{\'e}es d{\'e}s{\'e}quilibr{\'e}es, les r{\'e}sultats sont plus faibles (jusqu{'}{\`a} 0,92 de F-mesure) mais restent comp{\'e}titifs lorsque les mod{\`e}les sont entra{\^\i}n{\'e}s sur les donn{\'e}es {\'e}quilibr{\'e}es.

PDF Abstract
No code implementations yet. Submit your code now

Tasks


Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here