Partager ses données pour la recherche, est-ce vraiment si risqué ?

risque-partage-donnees-sante
Image élaborée par onlyyouqj sur Freepik

Dans une étude publiée le 6 octobre 2022 dans la revue PLOS Digital Health, une équipe de recherche dirigée par Leo Anthony Celi, chercheur au MIT, a évalué le risque que des patients soient réidentifiés suite au partage de leurs données de santé pour la recherche. Les chercheurs ont alors constaté que ce risque est actuellement extrêmement faible par rapport à celui d’une fuite ou d’un vol de données de santé (par exemple lors d’une attaque de hackers contre un hôpital). 

En effet, entre 2016 et 2021, période couverte par l’étude, il n’y a eu aucun cas de réidentification de patients par le biais de données de santé entreposées dans des banques de données disponibles pour la recherche.

Ces résultats suggèrent que le risque potentiel pour la vie privée est largement compensé par les gains pour les patients et la population, qui grâce aux recherches utilisant des données de santé pourront bénéficier d’un diagnostic plus précis et d’un meilleur traitement.

Risques vs. Bénéfices du partage des données de santé

Pour conduire leur étude sur le risque de ré-identification, Celi et ses collègues ont  d’abord effectué une recherche dans PubMed, une base de données d’articles scientifiques, pour trouver des rapports concernant la ré-identification de patients à partir de données de santé publiquement disponibles, mais ils n’en ont trouvé aucun.

Pour élargir la recherche, les chercheurs ont ensuite examiné les rapports des médias en utilisant Media Cloud, une base de données et un outil d’analyse de l’actualité mondiale en code source ouvert. En recherchant dans plus de 10,000 publications médiatiques américaines, ils n’ont pas trouvé un seul cas de ré-identification de patients à partir de données de santé accessibles pour la recherche.

En revanche, ils ont constaté qu’au cours de la même période, les dossiers de santé de près de 100 millions de personnes ont été dérobées ou rendues accessibles sans autorisation, alors qu’elles étaient censées être stockées en toute sécurité.

benefit-versus-cost-health-data-sharing
Source de l'image : journals.plos.org

Pour une recherche plus inclusive et représentative

Selon Celi et ses collègues, un partage plus généralisé des données de santé dé-identifiées est nécessaire garantir que des groupes historiquement sous-représentés puissent être inclus dans les études cliniques. Aujourd’hui, la plupart des bases de données de santé sont biaisées en faveur d’une surreprésentation d’une population blanche et caucasienne. Favoriser la collecte et le partage de données de santé pour la recherche permettrait au moins en partie de contrebalancer ce biais.  

De plus, si le consentement des patients est essentiel pour autoriser le partage des données, il n’est pas toujours praticable ni favorable à l’inclusion de populations diversifiées dans les ensembles de données. Selon Celi et collègues, plutôt que mettre l’emphase sur le consentement individuel qui peut exacerber l’exclusion de nombreuses personnes aujourd’hui sous-représentées, il est nécessaire de renforcer les garanties existantes pour protéger les données.

Comme le souligne le chercheur dans une entrevue au MIT News Office : 

« Ce que nous préconisons, c’est d’effectuer l’analyse des données dans un environnement très sécurisé afin d’écarter tout acteur malveillant qui tenterait d’utiliser les données pour d’autres raisons que l’amélioration de la santé de la population », dit-il. « Nous ne disons pas que nous devons faire fi de la vie privée des patients. Ce que nous disons, c’est que nous devons également trouver un équilibre pour considérer la valeur du partage des données. »

Global healthcare fairness: We should be sharing more, not less, data 

Auteurs : Kenneth P. Seastedt, Patrick Schwab, Zach O’Brien, Edith Wakida, Karen Herrera, Portia Grace F. Marcelo, Louis Agha-Mir-Salim, Xavier Borrat Frigola, Emily Boardman Ndulue, Alvin Marcelo, Leo Anthony Celi

Date de publication : 6 octobre 2022. https://doi.org/10.1371/journal.pdig.0000102

Résumé de l’article (en anglais)

The availability of large, deidentified health datasets has enabled significant innovation in using machine learning (ML) to better understand patients and their diseases. However, questions remain regarding the true privacy of this data, patient control over their data, and how we regulate data sharing in a way that that does not encumber progress or further potentiate biases for underrepresented populations. After reviewing the literature on potential reidentifications of patients in publicly available datasets, we argue that the cost—measured in terms of access to future medical innovations and clinical software—of slowing ML progress is too great to limit sharing data through large publicly available databases for concerns of imperfect data anonymization. This cost is especially great for developing countries where the barriers preventing inclusion in such databases will continue to rise, further excluding these populations and increasing existing biases that favor high-income countries. Preventing artificial intelligence’s progress towards precision medicine and sliding back to clinical practice dogma may pose a larger threat than concerns of potential patient reidentification within publicly available datasets. While the risk to patient privacy should be minimized, we believe this risk will never be zero, and society has to determine an acceptable risk threshold below which data sharing can occur—for the benefit of a global medical knowledge system.

Facebook
Twitter
LinkedIn
Email

Dernières publications

Obrigado por entrar em contato conosco! Em breve entraremos em contato.

Um erro aconteceu

Usamos apenas suas informações pra entrar em contato contigo e nada mais.