Classification multi-label de cas cliniques avec CamemBERT (Multi-label classification of clinical cases with CamemBERT )

La quantité de documents textuels médicaux allant grandissant, la nécessité d’en extraire automatiquement des informations concernant des patients devient de plus en plus grande. La prédiction du profil clinique permet de gagner du temps pour le praticien tout en extrayant l’essentiel de l’information concernant un patient. Avec l’explosion du nombre de documents (médicaux ou non), des modèles pré-entraînés tels que BERT pour l’anglais ou CamemBERT pour le français ont émergé. L’utilisation de ces modèles permet d’encoder contextuellement du texte afin de l’utiliser dans des réseaux neuronaux pour notamment prédire des profils cliniques. Cet article vise à comparer différentes méthodes de prédiction de profil clinique en se basant sur l’utilisation de CamemBERT. Dans un premier temps, uniquement du texte provenant de documents médicaux a été utilisé. Dans un second temps, des entités nommées ont été injectées en plus du texte par concaténation ou par sommation pondérée. Les résultats ont montré un succès limité et dépendant de la prévalence des chapitres à prédire dans le corpus ainsi qu’une dégradation des performances lors de l’ajout des entités nommées.

PDF Abstract

Datasets


  Add Datasets introduced or used in this paper

Results from the Paper


  Submit results from this paper to get state-of-the-art GitHub badges and help the community compare results to other papers.

Methods


No methods listed for this paper. Add relevant methods here