Ranljivost anonimnih genskih baz podatkov za kršitve podatkov

Transparenz: Redaktionell erstellt und geprüft.
Veröffentlicht am

Nova študija kaže, da so anonimne genetske zbirke podatkov ranljive za krajo identitete in kršitve podatkov. Raziskovalci opozarjajo na posledice.

Eine neue Studie zeigt, dass anonyme genetische Datenbanken anfällig sind für Identitätsdiebstahl und Datenschutzverletzungen. Forschende warnen vor den Folgen.
Nova študija kaže, da so anonimne genetske zbirke podatkov ranljive za krajo identitete in kršitve podatkov. Raziskovalci opozarjajo na posledice.

Ranljivost anonimnih genskih baz podatkov za kršitve podatkov

Študija je sprožila zaskrbljenost, da bi lahko vrsto genetske baze podatkov, ki je med raziskovalci vse bolj priljubljena, izkoristili za razkrivanje identitete udeležencev ali povezovanje zasebnih zdravstvenih informacij z njihovimi javnimi genetskimi profili.

Enocelični nabori podatkov lahko vsebuje informacije o izražanju genov v milijonih celic, zbranih od tisočev ljudi. Ti podatki so pogosto prosto dostopni in so dragocen vir za raziskovalce, ki preučujejo učinke bolezni na celični ravni. Podatki naj bi bili anonimizirani, a študija, objavljena 2. oktobra v reviji Cell 1 kaže, kako se lahko genetski podatki iz ene študije "izkoristijo za odkrivanje zasebnih informacij o posameznikih v drugi študiji," pišejo avtorji.

Rezultati poudarjajo težave pri usklajevanju interesov raziskovalcev z zasebnostjo donatorjev. "Naši genomi so zelo prepoznavni. Veliko lahko povedo o nas, naših značilnostih in naši dovzetnosti za bolezni," pravi soavtor študije Gamze Gürsoy, raziskovalec bioinformatike na univerzi Columbia v New Yorku. "Številko svoje kreditne kartice lahko spremenite, če postane javna, ne morete pa spremeniti svojega genoma."

Občutljivi podatki

Pomisleki glede zasebnosti v zbirkah genetskih podatkov so se pojavljale že prej, vendar so se osredotočale predvsem na "množične podatke" genetskih profilov. Vsebujejo informacije o genski aktivnosti v povprečju velike celične populacije in ne posameznih celic.

Prej se je mislilo, da enocelični nabori podatkov ne bodo tako ranljivi za kršitve podatkov zaradi ravni "šuma" ali variacije v izražanju genov med različnimi celicami. Toda Gürsoy in njena ekipa so lahko dokazali, da temu ni tako.

Skupina je pregledala tri javno dostopne enocelične podatkovne nize, ki so vključevali krvne celice ljudi z lupusom, kronično avtoimunsko boleznijo. Raziskovalci so ugotovili, da bi lahko uporabili podatke o izražanju genov za napovedovanje strukture genoma osebe s kombiniranjem teh vrednosti z informacijami o lokusih kvantitativnih lastnosti izražanja (eQTL). Podrobnosti o eQTL – variacijah v kromosomu, ki so v korelaciji z izražanjem genov – so javno dostopne tudi v enoceličnih zbirkah podatkov.

Da bi preizkusili zanesljivost svojega dela, so raziskovalci svoje napovedi genoma preverili glede na podatkovno bazo genoma, ki je ustrezala uporabljenim celicam. Večino naborov podatkov jim je uspelo povezati z ustreznim genomom s stopnjo natančnosti več kot 80 %.

Za razliko od podatkov o izražanju genov in eQTL-jev si lahko baze podatkov o celotnem genomu običajno ogledajo samo znanstveniki, da zaščitijo identifikacijske podatke darovalcev. Vendar pa raziskovalci ugotavljajo, da bi lahko bili genomski podatki udeleženca javno dostopni drugje. Na primer, morda so jih naložili na rodoslovno spletno mesto, kjer uporabniki predložijo vzorce DNK, da bi izvedeli več o svojem poreklu. V tem primeru bi lahko napadalec identificiral osebo, katere celice so v enoceličnem naboru podatkov, z analizo njenega genoma. To bi lahko razkrilo osebne podatke, povezane z občutljivo lastnostjo, kot je psihiatrična motnja, saj so udeleženci raziskave pogosto izbrani za preučevanje biologije teh kompleksnih stanj.

Takšne kršitve podatkov bi lahko imele resnične posledice, kot je diskriminacija na delovnem mestu, pravi Gürsoy. Dodaja, da bi uhajanja lahko vplivala celo na prihodnje generacije, saj se genetske lastnosti lahko prenesejo na potomce. »Vse, kar je znanega o nas, se prenaša iz generacij,« pravi.

Bradley Malin, ki raziskuje obsežno izmenjavo genomskih podatkov na Univerzi Vanderbilt v Nashvillu v Tennesseeju, opisuje študijo kot "nov dodatek in prispevek k literaturi." Dodaja, da bi prihodnje raziskave lahko raziskale, ali bi lahko genomske podatke povezali tudi v večjih naborih podatkov, ki vsebujejo vzorce tisočev ali milijonov ljudi.

konkurenčnih interesov

Znanstveniki niso prepričani, kako najbolje obravnavati vprašanja zasebnosti. »Obstaja želja po zaščiti zasebnosti posameznika, pa tudi želja po kolektivnem napredku medicinskih raziskav, na žalost pa so si med seboj v nasprotju,« pravi Mark Gerstein, ki raziskuje znanost o medicinskih podatkih na univerzi Yale v New Havenu v Connecticutu. Najenostavnejša rešitev bi bila otežiti dostop do genetskih podatkov, vendar bi to negativno vplivalo na raziskave, pravi. "Deliti in združevati moramo velike količine informacij," pojasnjuje. "Če vse blokiramo in naredimo bolj zasebno, to resnično ovira celoten proces."

V svoji študiji Gürsoy in njeni kolegi pozivajo k večji preglednosti glede tveganj za udeležence, ki delijo svoje genomske podatke, in predlagajo, da bi morali raziskovalci zagotoviti, da se darovalci strinjajo z delitvijo svojih podatkov. Druga možna pot bi lahko bila šifriranje osebnih podatkov, če so del javne zbirke podatkov. Avtorji priznavajo, da bi to zapletlo proces ustvarjanja in vzdrževanja zapisov, vendar verjamejo, da bi lahko pomagalo zaščititi zasebnost udeležencev.

  1. Walker, C.R. et al. Celica https://doi.org/10.1016/j.cell.2024.09.012 (2024).

    člen
    Google Učenjak

Prenesite reference