Чувствителност към анонимни бази данни за ген за нарушения на защитата на данните

Чувствителност към анонимни бази данни за ген за нарушения на защитата на данните
Проучването предизвика опасения, че един вид генетична база данни, която е все по -популярна сред изследователите, може да бъде експлоатирана, за да разкрие самоличността на участниците или да свърже частната здравна информация с техните публични генетични профили.
Individual cell data sets can contain information about gene expression in millions of клетки, събрани от хиляди хора. Тези данни често са свободно достъпни и предлагат ценен ресурс за изследователи, които изследват ефектите на заболяванията на клетъчно ниво. Данните трябва да бъдат анонимизирани, но проучване, публикувано на 2 октомври в списанието Cell 1 За да се разкрие лична информация за индивиди в друго проучване", пише авторите.
Резултатите подчертават трудността при съгласуването на интересите на изследователите с поверителността на донорите. "Нашите геноми са много идентифициращи. Можете да кажете много за нас, нашите характеристики и нашите предпазители на болести", казва съавторът на изследването, Gamze Gürsoy, изследовател по биоинформатика в Колумбийския университет в Ню Йорк. "Можете да промените номера на кредитната си карта, ако тя е публична, но не можете да промените генома си."
чувствителни данни
Помислете за поверителността на записи на генетични данни "Помислете за поверителност в записи на генетични данни , вече са изразени, но помислете за поверителност в записи на генетични данни вече са изразени, но помислете за поверителност в записи на генетични данни". Те съдържат информация за генетичната активност, която е средна за голяма клетъчна популация, а не за отделни клетки.
В миналото се смяташе, че наборите от данни за единични клетки не са толкова податливи на нарушения на защитата на данните поради нивото на "шум" или вариация в генната експресия между различните клетки. Но Гюрсо и нейният екип успяха да докажат, че това не е така.
Екипът разгледа три публично достъпни набора от данни за единични клетки, които съдържаха кръвни клетки от хора с лупус, хронична болест на автомобила. Изследователите откриха, че са в състояние да използват данните за генна експресия, за да прогнозират структурата на генома на човек, като комбинират тези стойности с информация за количествените локуси на експресията (eqtls). Подробностите за вариациите на EQTLS в хромозомата, които корелират с генната експресия-също са публично достъпни в наборите от данни за единични клетки.
За да тестват надеждността на своята работа, изследователите провериха прогнозите си за геном въз основа на база данни за геном, която съответства на използваните клетки. Те успяха да свържат повечето записи на данни със съответния геном, със скорост на точност над 80 %.
За разлика от данните за генната експресия и EQTL, пълните бази данни за геноми обикновено могат да се разглеждат само от учени, за да се защити идентифициращата информация от донорите. Изследователите обаче посочват, че данните от генома на участник могат да бъдат публично достъпни някъде другаде. Например, бихте могли да ги качите на уебсайт за генеалогия, на който потребителите изпращат ДНК проби, за да научат повече за слизането си. В този случай нападателят може да идентифицира човек, чиито клетки са в един набор от данни на клетките, като анализира своя геном. Това може да разкрие лични данни, които са свързани с чувствителна характеристика, като психиатрично разстройство, тъй като участниците в научните изследвания често се избират да изследват биологията на тези сложни състояния.Уврежданията за защита на данните като това биха могли да имат реални последици, като дискриминация на работното място, казва Гюрсой. Той добавя, че течовете могат дори да окажат влияние върху бъдещите поколения, тъй като генетичните характеристики могат да бъдат предадени на потомците. „Всичко, което се знае за нас, се води от поколения“, казва тя.
Брадли Малин, който в областта на мащабния обмен на данни за генома в университета Вандербилт в Нашвил, Тенеси, изследва, описва изследването като „ново разширение и принос към литературата“. Той добавя, че бъдещите изследвания могат да проучат дали данните на генома могат да бъдат свързани и в по -големи записи на данни, които съдържат пробите от хиляди или милиони хора.
Интереси за конкуренция
Учените не са сигурни как най -добре да се справят с опасенията за защита на данните. „Има желание да се защити поверителността на индивида, но и желанието да насърчава медицинските изследвания колективно и те за съжаление са в противоречие един с друг“, казва Марк Герщайн, който изследва в Йейлския университет в Ню Хейвън, Кънектикът, Medic Data. Най -простото решение би било да се направи достъпът до генетични данни по -труден, но това би повлияло негативно на изследванията, казва той. „Трябва да споделяме и обобщаваме големи количества информация“, обяснява той. "Ако блокираме всичко и го направим по -лично, това наистина пречи на целия процес."
В своето проучване Гюрсой и нейните колеги изискват по -голяма прозрачност относно рисковете за участниците, които споделят своите данни за генома и предполагат, че изследователите трябва да гарантират, че донорите се съгласяват да предадат своите данни. Друг възможен начин може да бъде криптирането на личните данни, ако сте част от публична база данни. Авторите признават, че това би усложнявало процеса на създаване и изчакване на записи на данни, но е на мнение, че може да помогне за защита на поверителността на участниците.
-
Walker, C. R. et al. Cell https://doi.org/10.1016/j.cell.2024.09.012 (2024).