Segmentation de texte non-supervis\'ee pour la d\'etection de th\'ematiques \`a l'aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings )

JEPTALNRECITAL 2020  ·  Alex Benamar, ra ·

Cet article pr{\'e}sente les principales m{\'e}thodes de segmentation automatique de documents textuels sp{\'e}cifiques. La t{\^a}che de segmentation th{\'e}matique de texte consiste {\`a} analyser un document pour en extraire des sections coh{\'e}rentes. Les m{\'e}thodes de segmentation non supervis{\'e}es cherchent {\`a} optimiser une fonction de probabilit{\'e} de segmentation ou une fonction de similarit{\'e} qui peut {\^e}tre calcul{\'e}e entre les blocs ou au sein des blocs. Elles sont r{\'e}parties en trois cat{\'e}gories : les m{\'e}thodes statistiques, les m{\'e}thodes {\`a} base de graphes et les approches neuronales. Parmi les approches neuronales utilis{\'e}es, nous nous int{\'e}ressons tout particuli{\`e}rement {\`a} celles qui utilisent des plongements lexicaux pour repr{\'e}senter des phrases et d{\'e}finir des segments th{\'e}matiques. Tout d{'}abord, nous montrons que les plongements lexicaux permettent une am{\'e}lioration nette des performances par rapport {\`a} des m{\'e}thodes statistiques. Ensuite, nous {\'e}valuons l{'}impact du choix de la repr{\'e}sentation vectorielle des phrases pour cette t{\^a}che de segmentation non supervis{\'e}e.

PDF Abstract

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here