Évaluer le risque de ré-identification des données

evaluation-risque-reidentification
Image élaborée par rawpixel.com sur Freepik

Que l’on soit en Europe ou au Canada, la question de l’anonymisation des données demeure centrale. Mais de quoi parle-t-on au juste ? 

Un jeu de données anonyme ne permet plus l’identification des personnes qui sont à la source des informations. Cela veut dire que des méthodes ont été mises en oeuvre pour s’assurer que ces personnes ne puissent pas être ré-identifiées. Par exemple, les données ont été agrégées et seuls les résultats d’analyse sont présents dans le jeu de données. Ou, bien les variables pouvant identifier une personne ont toutes été détruites de façon irréversible. 

Mais ce n’est pas tout…

Anonymisation et dépersonnalisation

La loi 25 au Québec a introduit une distinction entre données anonymisées et données dépersonnnalisées.

  • Une donnée est anonymisée lorsqu’elle ne permet plus, de façon irréversible, d’identifier directement ou indirectement la personne concernée.
  • Une données est dépersonnalisée lorsqu’elle ne permet plus d’identifier directement la personne concernée.

On voit là que la distinction repose sur l’ajout de l’adjectif « irréversible » et de l’adverbe « indirectement » dans la première définition. En effet, une donnée dépersonnalisée comporte toujours un risque de ré-identification, par voie indirecte, de la personne concernée. Elle n’est pas tout à fait anonyme dans le jeu de données et pourrait être retrouvée.

Mesurer l’étendue du risque de ré-identification et mettre en oeuvre des mesures de mitigation est donc l’objectif de tout responsable de jeu de données.

Évaluer le risque de ré-identification

guide-HDH-donnees-anonymisationEn Union européenne, on parle dans la loi de pseudoanonymisation plutôt que de dépersonnalisation comme au Québec. Mais, en fait, on se rapporte à la même chose : un jeu de données qui ne contient pas d’identifiants directs permettant de reconnaître une personne mais pouvant conduire à sa ré-identification par des voies indirectes. Par exemple, l’une des ces voies indirectes est le jumelage entre plusieurs jeux de données.

En septembre 2022, le Health Data Hub (HDH), plateforme française pour l’accès aux données de santé, a publié un guide très riche pour conduire les responsables de jeux de données à l’analyse du risque de ré-identification. 

Comment en effet s’assurer que nos données sont bien anonymes ? Cette question n’est pas anodine car en Europe comme au Canada, les données anonymisées ne doivent pas être traitées comme des données personnelles. Elles peuvent par exemple être conservées et partagées avec moins de restrictions.

Facebook
Twitter
LinkedIn
Email

Dernières publications

Obrigado por entrar em contato conosco! Em breve entraremos em contato.

Um erro aconteceu

Usamos apenas suas informações pra entrar em contato contigo e nada mais.