Antoine Richard

Dans ce papier nous nous intéressons à la faisabilité de l'anonymisation de documents médicaux en texte libre et en français à l'aide du réseau de neurones CamemBERT. Nous avons entrainé ce modèle à détecter des éléments identifiants dans des textes médicaux, avec et sans préapprentissage du jargon médical. Nos résultats montrent des performances satisfaisantes avec des F1-score supérieurs à 0.9. Nous montrons aussi que le pré-apprentissage du jargon médical comporte des risques de ré-identification des données sans présenter de meilleurs résultats.

@inproceedings{richard:hal-04139391, TITLE = {{Anonymisation de documents médicaux en texte libre et en français via réseaux de neurones}}, AUTHOR = {Richard, Antoine and Talbot, Fran{\c c}ois and Gimbert, David}, URL = {https://hal.archives-ouvertes.fr/hal-04139391}, BOOKTITLE = {PFIA 2023}, ADDRESS = {Strasbourg, France}, YEAR = {2023}, MONTH = {Jul}, KEYWORDS = {Anonymisation ; TAL ; NER ; Réseaux de neurones ; BERT}, PDF = {https://hal.archives-ouvertes.fr/hal-04139391v1/file/2023-Richard-Talbot-Gimbert-Anonymisation-Documents-Medicaux-via-CamemBERT.pdf}, HAL_ID = {hal-04139391}, HAL_VERSION = {v1}, abstract = {Dans ce papier nous nous intéressons à la faisabilité de l'anonymisation de documents médicaux en texte libre et en français à l'aide du réseau de neurones CamemBERT. Nous avons entrainé ce modèle à détecter des éléments identifiants dans des textes médicaux, avec et sans préapprentissage du jargon médical. Nos résultats montrent des performances satisfaisantes avec des F1-score supérieurs à 0.9. Nous montrons aussi que le pré-apprentissage du jargon médical comporte des risques de ré-identification des données sans présenter de meilleurs résultats.} }