On l’a vue durant la pandémie de COVID-19, le partage et la mise en commun de données est clé pour accélérer la recherche et la découverte de nouvelles thérapies. Dans le domaine scientifique d’ailleurs, les communs de santé ne datent pas d’hier. On compte ainsi un nombre important de portails réunissant des données très spécifiques et réunies par spécialité : génomique, radiologie, cardiologie, diabète, etc.
Mais après ces années d’expérience, qu’a-t-on appris pour utiliser à son plein potentiel un portail commun de données ? Dans un article publié en mars 2023 dans la prestigieuse revue Nature, le chercheur Robert L. Grossman nous livre 10 leçons pour le partage des données des data commons. Voyez donc notre traduction et résumé dans cet article !
Qu'est-ce qu'un commun de données ?
Selon Grossman, un commun de données est une plateforme infonuagique dont la structure de gouvernance permet à une communauté de gérer, partager et analyser des données. Vaste définition !
La notion de communs de données n’est toutefois pas nouvelle. Récipiendaire en 2009 du prix Nobel, l’économiste suédoise Eleanor Ostrom est bien connue pour avoir analysé la gouvernance des communs et explorer ce qu’on appelle couramment la tragédie des communs. En fait, les communs sont des biens accessibles par tous et qu’il faut par conséquent bien administrer pour éviter de les exploiter jusqu’à leur disparition pure et simple. Pensons ainsi aux biens communs environnementaux…
Et les données alors ? Les données ne sont pas des biens communs comme les autres car elles ne sont pas consommées lors de leur utilisation et peuvent être utilisées par plusieurs utilisateurs à la fois. Pour autant, les données nécessitent d’être bien administrées et protégées, surtout lorsqu’il s’agit de données sensibles et confidentielles, comme c’est le cas dans le domaine de la santé.
C’est pour cela que la gestion d’un commun de données peut s’avérer complexe même si elle recèle de nombreux bénéfices : accès plus efficace aux données, connexion entre les chercheurs, capacités de stockage et d’analyse accrues… Découvrons à présent les conseils de Grossman pour bien administrer un commun de données.
Comment bien gérer un portail commun de données
S’appuyant sur le succès de portail de données tels que NCI Genomic Data Commons, Robert L. Grossman nous livre 10 leçons pour optimiser la performance d’un commun de données au service de la recherche et de l’innovation :
Leçon 1 : Bâtir un commun de données pour une communauté de recherche spécifique qui rencontre ses propres défis de recherche et problématiques
Leçon 2 : Développer une expertise et des activités autour de la mise en qualité (« curation » en anglais) et de la normalisation des données pour favoriser leur utilisation secondaire
Leçon 3 : S’assurer que le commun de données ne contient pas seulement des données brutes mais aussi les résultats produits à partir des données afin de favoriser la reproductibilité des connaissances et leur diffusion dans les communautés
Leçon 4 : Faire en sorte que les barrières à l’accès sont réduites au minimum essentiel (exigences légales et éthiques) et ne deviennent pas des obstacles à la recherche
Leçon 5 : Bien prendre en compte les coûts d’opération du commun de données qui sont essentiellement dus à la préparation et l’harmonisation des données d’une part, et au développement d’interfaces pour visualiser et analyser les données d’autre part
Leçon 6 : Soutenir l’intégration de multiples systèmes et applications (APIs) en codes ouverts et non d’une seule solution ou fournisseur
Leçon 7 : Prendre conscience que les coûts associés à la mise en conformité juridique et technique du commun de données peuvent être considérables et demandent du temps et des ressources (souvent sous-estimés)
Leçon 8 : Ne pas présumer de l’importance de certains jeux de données par rapport à d’autres, car des données peu utilisées peuvent aussi conduire à de grandes découvertes
Leçon 9 : Envisager la connexion du communs de données à d’autres plateformes, par exemple à travers un data mesh, ces maillages de données, de ressources et de plateformes qui fonctionnent de manière interopérable sur le cloud
Leçon 10 : Travailler à la construction de relation de confiance avec les autres communs et plateformes afin de favoriser non seulement l’apport de nouvelles données et l’intéropérabilité, mais aussi de rendre toujours plus efficient l’accès aux données pour la recherche