Aide à l'orientation diagnostique des maladies rares par l'analyse de descriptions cliniques

Antoine Richard, Aoitif Laarej, Thomas Guyet, Naoual Bakrin

EGC 2026, January 2026

Abstract

Bien que les maladies rares concernent plus de 3 millions de personnes en France, celles-ci restent méconnues et difficiles à repérer. Cela entraîne souvent une errance médicale pour les patients et des prises en charge sous-optimales. La détection préventive des maladies rares est donc un enjeu majeur. Dans ce papier, nous cherchons à évaluer la faisabilité d'exploiter les descriptions cliniques faites par des médecins généralistes pour prédire 1)~les centres de référence vers lesquels adresser les patients et 2)~les groupes de pathologies correspondant aux descriptions. Pour cela, nous avons constitué une base de données annotées à partir des documents de différents centres de référence, et exploré une approche de traitement automatique du langage basée sur des transformers. Deux modèles ont été évalués~: Longformer et DrLongformer. Nos résultats sont encourageants pour la classification vers des centres de références, avec des scores de précision et de rappel supérieurs à 0.7. Pour la classification vers des groupes de pathologies les résultats sont bien moindre, mais reste encourageants sur certaines classes, avec des F1-scores variant entre 0.5 et 0.7 pour la plupart d'entre elles.

Bibtex

@inproceedings{richard:hal-05507923,
  TITLE = {{Aide {\`a} l'orientation diagnostique des maladies rares par l'analyse de descriptions cliniques}},
  AUTHOR = {Richard, Antoine and Laarej, Aoitif and Guyet, Thomas and Bakrin, Naoual},
  URL = {https://inria.hal.science/hal-05507923},
  BOOKTITLE = {EGC 2026},
  ADDRESS = {Anglet, France},
  PUBLISHER = {{RNTI}},
  YEAR = {2026},
  MONTH = {January},
  PDF = {https://inria.hal.science/hal-05507923v1/file/EGC26_Quickrare.pdf},
  HAL_ID = {hal-05507923},
  HAL_VERSION = {v1},
  ABSTRACT = {Bien que les maladies rares concernent plus de 3 millions de personnes en France, celles-ci restent méconnues et difficiles à repérer. Cela entraîne souvent une errance médicale pour les patients et des prises en charge sous-optimales. La détection préventive des maladies rares est donc un enjeu majeur. Dans ce papier, nous cherchons à évaluer la faisabilité d'exploiter les descriptions cliniques faites par des médecins généralistes pour prédire 1)~les centres de référence vers lesquels adresser les patients et 2)~les groupes de pathologies correspondant aux descriptions. Pour cela, nous avons constitué une base de données annotées à partir des documents de différents centres de référence, et exploré une approche de traitement automatique du langage basée sur des transformers. Deux modèles ont été évalués~: Longformer et DrLongformer. Nos résultats sont encourageants pour la classification vers des centres de références, avec des scores de précision et de rappel supérieurs à 0.7. Pour la classification vers des groupes de pathologies les résultats sont bien moindre, mais reste encourageants sur certaines classes, avec des F1-scores variant entre 0.5 et 0.7 pour la plupart d'entre elles.}
}