D\'etection automatique de phrases parall\`eles dans un corpus biom\'edical comparable technique / simplifi\'e (Automatic detection of parallel sentences in comparable biomedical corpora)

JEPTALNRECITAL 2019 · Remi Cardon, Natalia Grabar ·

Les phrases parall{\`e}les contiennent des informations identiques ou tr{\`e}s proches s{\'e}mantiquement et offrent des indications importantes sur le fonctionnement de la langue. Lorsque les phrases sont diff{\'e}renci{\'e}es par leur registre (comme expert vs. non-expert), elles peuvent {\^e}tre exploit{\'e}es pour la simplification automatique de textes. Le but de la simplification automatique est d{'}am{\'e}liorer la compr{\'e}hension de textes. Par exemple, dans le domaine biom{\'e}dical, la simplification peut permettre aux patients de mieux comprendre les textes relatifs {\`a} leur sant{\'e}. Il existe cependant tr{\`e}s peu de ressources pour la simplification en fran{\c{c}}ais. Nous proposons donc d{'}exploiter des corpus comparables, diff{\'e}renci{\'e}s par leur technicit{\'e}, pour y d{\'e}tecter des phrases parall{\`e}les et les aligner. Les donn{\'e}es de r{\'e}f{\'e}rence sont cr{\'e}{\'e}es manuellement et montrent un accord inter-annotateur de 0,76. Nous exp{\'e}rimentons sur des donn{\'e}es {\'e}quilibr{\'e}es et d{\'e}s{\'e}quilibr{\'e}es. La F-mesure sur les donn{\'e}es {\'e}quilibr{\'e}es atteint jusqu{'}{\`a} 0,94. Sur les donn{\'e}es d{\'e}s{\'e}quilibr{\'e}es, les r{\'e}sultats sont plus faibles (jusqu{'}{\`a} 0,92 de F-mesure) mais restent comp{\'e}titifs lorsque les mod{\`e}les sont entra{\^\i}n{\'e}s sur les donn{\'e}es {\'e}quilibr{\'e}es.

PDF Abstract

Code

Add Remove Mark official

No code implementations yet. Submit your code now

Tasks

Add Remove

Datasets

Add Datasets introduced or used in this paper

Results from the Paper

Add Remove

Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods

Add Remove

No methods listed for this paper. Add relevant methods here

Edit Social Preview

D\'etection automatique de phrases parall\`eles dans un corpus biom\'edical comparable technique / simplifi\'e (Automatic detection of parallel sentences in comparable biomedical corpora)

Code Edit Add Remove Mark official

Tasks Edit Add Remove

Datasets Edit

Results from the Paper Edit Add Remove

Methods Edit Add Remove

Code

Add Remove Mark official

Tasks

Add Remove

Datasets

Results from the Paper

Add Remove

Methods

Add Remove