Sensibilité aux bases de données de gènes anonymes pour les violations de la protection des données

Sensibilité aux bases de données de gènes anonymes pour les violations de la protection des données
Une étude a suscité des inquiétudes selon lesquelles une sorte de base de données génétique qui est de plus en plus populaire auprès des chercheurs pourrait être exploitée pour divulguer l'identité des participants ou pour lier des informations de santé privées à leurs profils génétiques publics.
1 Pour découvrir des informations privées sur les individus dans une autre étude ", écrivez les auteurs. P>
Les résultats soulignent la difficulté de réconcilier les intérêts des chercheurs avec la vie privée des donateurs. "Nos génomes sont très identifiés. Vous pouvez en dire beaucoup sur nous, nos caractéristiques et nos fusibles de la maladie", explique le co-auteur de l'étude, Gamze Gürsoy, chercheur en bioinformatique à l'Université Columbia à New York. "Vous pouvez modifier votre numéro de carte de crédit si c'est public, mais vous ne pouvez pas changer votre génome."
Données sensibles
Considérer la confidentialité dans les enregistrements de données génétiques . Ceux-ci contiennent des informations sur l'activité génétique qui sont moyennes sur une grande population de cellules et non sur les cellules individuelles.
Dans le passé, on pensait que les ensembles de données à cellules unicellulaires n'étaient pas si sensibles aux violations de la protection des données, en raison du niveau de "bruit", ou de la variation de l'expression des gènes, entre les différentes cellules. Mais Gürropy et son équipe ont pu prouver que ce n'est pas le cas.
L'équipe a examiné trois ensembles de données unicellulaires accessibles au public, qui contenaient des cellules sanguines de personnes atteintes de lupus, une maladie des voitures chroniques. Les chercheurs ont constaté qu'ils avaient pu utiliser les données pour l'expression des gènes pour prédire la structure du génome d'une personne en combinant ces valeurs avec des informations sur l'expression des loci de traits quantitatifs (EQTL). Les détails des variations EQTLS du chromosome, qui sont en corrélation avec l'expression des gènes - sont également accessibles au public dans les ensembles de données unicellulaires.
Afin de tester la fiabilité de leur travail, les chercheurs ont vérifié leurs prévisions de génome sur la base d'une base de données du génome qui correspondait aux cellules utilisées. Ils ont pu relier la plupart des enregistrements de données avec le génome correspondant, avec un taux de précision de plus de 80%.
Contrairement aux données sur l'expression des gènes et les EQTL, les bases de données complètes du génome ne peuvent généralement être consultées que par les scientifiques afin de protéger les informations d'identification des donateurs. Cependant, les chercheurs soulignent que les données du génome d'un participant pourraient être accessibles au public ailleurs. Par exemple, vous auriez pu les télécharger sur un site Web de généalogie sur lequel les utilisateurs envoient des échantillons d'ADN pour en savoir plus sur leur descente. Dans ce cas, un attaquant pourrait identifier une personne dont les cellules sont dans un ensemble de données à cellules uniques en analysant son génome. Cela pourrait découvrir des données personnelles liées à une caractéristique sensible telle qu'un trouble psychiatrique, car les participants à la recherche sont souvent sélectionnés pour examiner la biologie de ces conditions complexes.Les blessures à la protection des données comme celle-ci pourraient avoir de réelles conséquences, telles que la discrimination sur le lieu de travail, explique Gürsoy. Il ajoute que les fuites pourraient même avoir un impact sur les générations futures, car les caractéristiques génétiques peuvent être transmises aux descendants. "Tout ce qui est connu à notre sujet est exercé par des générations", dit-elle.
Bradley Malin, qui dans le domaine de l'échange de données du génome à grande échelle à l'Université Vanderbilt à Nashville, Tennessee, Researchs, décrit l'étude comme une "nouvelle extension et contribution à la littérature". Il ajoute que les recherches futures pourraient déterminer si les données du génome pourraient également être liées dans des enregistrements de données plus importants qui contiennent les échantillons de milliers ou de millions de personnes.
Intérêts de concurrence
Les scientifiques ne savent pas comment répondre au mieux sur les problèmes de protection des données. "Il y a un désir de protéger la vie privée de l'individu, mais aussi le désir de promouvoir collectivement la recherche médicale, et ceux-ci sont malheureusement en contradiction les uns avec les autres", explique Mark Gerstein, qui fait des recherches à l'Université de Yale à New Haven, Connecticut, Medic Data. La solution la plus simple serait de rendre l'accès aux données génétiques plus difficile, mais cela influencerait négativement la recherche, dit-il. "Nous devons partager et agréger de grandes quantités d'informations", explique-t-il. "Si nous bloquons tout et le rendons plus privé, cela entrave vraiment l'ensemble du processus."
Dans leur étude, Gürropy et ses collègues nécessitent une plus grande transparence quant aux risques pour les participants qui partagent leurs données de génome et suggèrent que les chercheurs devraient s'assurer que les donateurs acceptent de transmettre leurs données. Une autre façon possible pourrait être le chiffrement des données personnelles si vous faites partie d'une base de données publique. Les auteurs reconnaissent que cela compliquerait le processus de création et d'attente des enregistrements de données, mais il est d'avis qu'il pourrait aider à protéger la vie privée des participants.
-
Walker, C. R. et al. Cell https://doi.org/10.1016/j.cell.2024.09.012 (2024).