Antoine Richard, François Talbot, David Gimbert
PFIA 2023, July 2023
Abstract
Bibtex
@inproceedings{richard:hal-04139391,
TITLE = {{Anonymisation de documents médicaux en texte libre et en français via réseaux de neurones}},
AUTHOR = {Richard, Antoine and Talbot, Fran{\c c}ois and Gimbert, David},
URL = {https://hal.archives-ouvertes.fr/hal-04139391},
BOOKTITLE = {PFIA 2023},
ADDRESS = {Strasbourg, France},
YEAR = {2023},
MONTH = {Jul},
KEYWORDS = {Anonymisation ; TAL ; NER ; Réseaux de neurones ; BERT},
PDF = {https://hal.archives-ouvertes.fr/hal-04139391v1/file/2023-Richard-Talbot-Gimbert-Anonymisation-Documents-Medicaux-via-CamemBERT.pdf},
HAL_ID = {hal-04139391},
HAL_VERSION = {v1},
abstract = {Dans ce papier nous nous intéressons à la faisabilité de l'anonymisation de documents médicaux en texte libre et en français à l'aide du réseau de neurones CamemBERT. Nous avons entrainé ce modèle à détecter des éléments identifiants dans des textes médicaux, avec et sans préapprentissage du jargon médical. Nos résultats montrent des performances satisfaisantes avec des F1-score supérieurs à 0.9. Nous montrons aussi que le pré-apprentissage du jargon médical comporte des risques de ré-identification des données sans présenter de meilleurs résultats.}
}