Modtagelighed for anonyme gendatabaser for overtrædelse af databeskyttelse

Modtagelighed for anonyme gendatabaser for overtrædelse af databeskyttelse

En undersøgelse har udløst bekymring for, at en slags genetisk database, der er i stigende grad populær blandt forskere, kunne udnyttes til at afsløre deltagernes identitet eller til at forbinde private sundhedsoplysninger med deres offentlige genetiske profiler.

M Millioner af celler indsamlet af tusinder af mennesker. Disse data er ofte frit tilgængelige og tilbyder en værdifuld ressource for forskere, der undersøger virkningerne af sygdomme på cellulært niveau. Dataene skal anonymiseres, men en undersøgelse offentliggjort den 2. oktober i magasincellen 1 For at afdække private oplysninger om enkeltpersoner i en anden undersøgelse, "Skriv forfatterne.

Resultaterne understreger vanskeligheden ved at forene forskernes interesser med donorernes privatliv. "Vores genomer identificerer meget. Du kan sige meget om os, vores egenskaber og vores sikringer af sygdom," siger medforfatteren til undersøgelsen, Gamze Gürsoy, bioinformatikforsker ved Columbia University i New York City. "Du kan ændre dit kreditkortnummer, hvis det er offentligt, men du kan ikke ændre dit genom."

følsomme data

M profiler. Disse indeholder information om genetisk aktivitet, der er gennemsnitlig over en stor cellepopulation og ikke om individuelle celler.

Tidligere troede man, at enkeltcelledatasæt ikke var så modtagelige for overtrædelser af databeskyttelse på grund af niveauet af "støj" eller variation i genekspression mellem de forskellige celler. Men Gürsoy og hendes team kunne bevise, at dette ikke er tilfældet.

Holdet undersøgte tre offentligt tilgængelige enkeltcelledatasæt, der indeholdt blodlegemer fra mennesker med lupus, kronisk bilsygdom. Forskerne fandt, at de var i stand til at bruge dataene til genekspression til at forudsige strukturen af ​​genomet af en person ved at kombinere disse værdier med information om ekspression kvantitativ egenskab loci (EQTL'er). Detaljerne om EQTLS-variationerne i kromosom, der korrelerer med genekspression-er også offentligt tilgængelige i enkeltcelledatasæt.

For at teste pålideligheden af ​​deres arbejde kontrollerede forskerne deres genomprognoser baseret på en genomdatabase, der svarede til de anvendte celler. De var i stand til at forbinde de fleste dataregistreringer med det tilsvarende genom med en nøjagtighedshastighed på over 80 %.

I modsætning til dataene om genekspression og EQTL'er kan komplette genomdatabaser normalt kun ses af forskere for at beskytte de identificerende oplysninger fra donorerne. Forskerne påpeger imidlertid, at genomdataene fra en deltager kunne være offentligt tilgængelige et andet sted. For eksempel kunne du have uploadet dem på et slægtsforskningswebsted, som brugerne sender DNA -prøver for at lære mere om deres afstamning. I dette tilfælde kunne en angriber identificere en person, hvis celler er i et enkeltcelledatasæt ved at analysere deres genom. Dette kan afsløre personlige data, der er relateret til en følsom funktion, såsom en psykiatrisk lidelse, da forskningsdeltagere ofte er valgt til at undersøge biologien af ​​disse komplekse tilstande.

Databeskyttelsesskader som dette kan have reelle konsekvenser, såsom forskelsbehandling på arbejdspladsen, siger Gürsoy. Det tilføjer, at lækager endda kan have indflydelse på fremtidige generationer, da genetiske træk kan overføres til efterkommere. "Alt, hvad der bliver kendt om os, udføres af generationer," siger hun.

Bradley Malin, der i området i storstilet genomdataudveksling ved Vanderbilt University i Nashville, Tennessee, forsker, beskriver undersøgelsen som en "ny udvidelse og bidrag til litteratur". Han tilføjer, at fremtidig forskning kunne undersøge, om genomdata også kunne knyttes til større dataregistre, der indeholder prøverne af tusinder eller millioner af mennesker.

Konkurrenceinteresser

Forskere er usikre på, hvordan man bedst kan tackle databeskyttelsesproblemerne. "Der er et ønske om at beskytte individets privatliv, men også ønsket om at fremme medicinsk forskning samlet, og disse er desværre i modstrid med hinanden," siger Mark Gerstein, der forsker på Yale University i New Haven, Connecticut, medic -data. Den enkleste løsning ville være at gøre adgang til genetiske data vanskeligere, men det ville have negativ indflydelse på forskning, siger han. "Vi er nødt til at dele og samle store mængder information," forklarer han. "Hvis vi blokerer for alt og gør det mere privat, hindrer det virkelig hele processen."

I deres undersøgelse kræver Gürsoy og hendes kolleger større gennemsigtighed omkring risikoen for deltagere, der deler deres genomdata og foreslår, at forskere skal sikre, at donorerne er enige om at videregive deres data. En anden mulig måde kan være kryptering af personlige data, hvis du er en del af en offentlig database. Forfatterne anerkender, at dette ville komplicere processen med at oprette og vente dataregistre, men det er af den opfattelse, at det kan hjælpe med at beskytte deltagernes privatliv.

  1. >>

    Walker, C. R. et al. Cell https://doi.org/10.1016/j.cell.2024.09.012 (2024).

    artikel download

Kommentare (0)