Modèles préservant la confidentialité des données par mimétisme pour la reconnaissance d’entités nommées en français
Abstract
Les Dossiers Électroniques Patient (DEPs) présentent un fort potentiel pour améliorer la recherche clinique. Cependant, la plupart des données contenues dans les DEPs sont en format texte brut (Fu et al., 2020). De plus, jusqu’à 80 % des informations cliniques cruciales ne sont disponibles
que sous forme de texte non structuré (Escudié et al., 2017; ?). Dans ce projet, nous abordons l’extraction d’information dans des compte-rendus cliniques en français, qui consiste à identifier des entités médicales tels que Maladie, Anatomie, Médicament, etc. Les modèles d’apprentissage profond offrent de bonnes performances pour cette tâche de Reconnaissance d’entités nommées (REN). Néanmoins, la disponibilité de données d’entraînement cliniques annotées est souvent limitée, en particulier pour les langues autres que l’anglais. En outre, le caractère confidentiel des textes cliniques limite la possibilité d’échange de données entre les institutions. En effet, le partage de données est difficile dans la pratique et est strictement encadré par des réglementations telles que le RGPD 1. Ainsi, l’adaptation de modèles de REN appris sur des corpus privés à des corpus publics est nécessaire pour permettre le partage d’outils d’extraction d’information clinique.
Domains
Computer Science [cs]Origin | Files produced by the author(s) |
---|