Anonymisation de documents médicaux en texte libre et en français via réseaux de neurones

Antoine Richard, François Talbot, David Gimbert

PFIA 2023, July 2023

Abstract

Dans ce papier nous nous intéressons à la faisabilité de l'anonymisation de documents médicaux en texte libre et en français à l'aide du réseau de neurones CamemBERT. Nous avons entrainé ce modèle à détecter des éléments identifiants dans des textes médicaux, avec et sans préapprentissage du jargon médical. Nos résultats montrent des performances satisfaisantes avec des F1-score supérieurs à 0.9. Nous montrons aussi que le pré-apprentissage du jargon médical comporte des risques de ré-identification des données sans présenter de meilleurs résultats.

Bibtex

@inproceedings{richard:hal-04139391,
  TITLE = {{Anonymisation de documents médicaux en texte libre et en français via réseaux de neurones}},
  AUTHOR = {Richard, Antoine and Talbot, Fran{\c c}ois and Gimbert, David},
  URL = {https://hal.archives-ouvertes.fr/hal-04139391},
  BOOKTITLE = {PFIA 2023},
  ADDRESS = {Strasbourg, France},
  YEAR = {2023},
  MONTH = {Jul},
  KEYWORDS = {Anonymisation ; TAL ; NER ; Réseaux de neurones ; BERT},
  PDF = {https://hal.archives-ouvertes.fr/hal-04139391v1/file/2023-Richard-Talbot-Gimbert-Anonymisation-Documents-Medicaux-via-CamemBERT.pdf},
  HAL_ID = {hal-04139391},
  HAL_VERSION = {v1},
  abstract = {Dans ce papier nous nous intéressons à la faisabilité de l'anonymisation de documents médicaux en texte libre et en français à l'aide du réseau de neurones CamemBERT. Nous avons entrainé ce modèle à détecter des éléments identifiants dans des textes médicaux, avec et sans préapprentissage du jargon médical. Nos résultats montrent des performances satisfaisantes avec des F1-score supérieurs à 0.9. Nous montrons aussi que le pré-apprentissage du jargon médical comporte des risques de ré-identification des données sans présenter de meilleurs résultats.}
}