Susceptibilidad a bases de datos de genes anónimos para violaciones de protección de datos

Susceptibilidad a bases de datos de genes anónimos para violaciones de protección de datos
Un estudio ha desencadenado las preocupaciones de que una especie de base de datos genética que sea cada vez más popular entre los investigadores podría ser explotada para revelar la identidad de los participantes o vincular información de salud privada con sus perfiles genéticos públicos.
el conjunto de datos de células individuales sets expresión de gene> puede contener información de los datos de los buques. Células recolectadas por miles de personas. Estos datos a menudo son accesibles libremente y ofrecen un recurso valioso para los investigadores que examinan los efectos de las enfermedades a nivel celular. Los datos deben ser anonimizados, pero un estudio publicado el 2 de octubre en la celda de la revista 1 Para descubrir información privada sobre las personas en otro estudio ", escriba los autores.
Los resultados enfatizan la dificultad de conciliar los intereses de los investigadores con la privacidad de los donantes. "Nuestros genomas son muy identificados. Puedes decir mucho sobre nosotros, nuestras características y nuestros fusibles de enfermedad", dice el coautor del estudio, Gamze Gürsoy, investigador de bioinformática de la Universidad de Columbia en la ciudad de Nueva York. "Puede cambiar su número de tarjeta de crédito si es público, pero no puede cambiar su genoma".
Datos confidenciales
Considere la privacidad en los registros de datos genéticos se ha expresado, pero ya se ha expresado en los principales datos. Estos contienen información sobre la actividad genética que son promedio sobre una población de células grandes y no sobre células individuales.
En el pasado, se pensaba que los conjuntos de datos de células individuales no eran tan susceptibles a las violaciones de protección de datos, debido al nivel de "ruido" o la variación en la expresión génica, entre las diferentes células. Pero Gürsoy y su equipo pudieron demostrar que este no es el caso.
El equipo examinó tres conjuntos de datos de células individuales disponibles públicamente, que contenían células sanguíneas de personas con lupus, enfermedad del automóvil crónico. Los investigadores encontraron que podían usar los datos para la expresión génica para predecir la estructura del genoma de una persona combinando estos valores con información sobre loci de rasgos cuantitativos de expresión (EQTL). Los detalles de las variaciones EQTLS en el cromosoma, que se correlacionan con la expresión génica, también se pueden acceder públicamente en conjuntos de datos de células individuales.
Para probar la confiabilidad de su trabajo, los investigadores verificaron sus pronósticos del genoma en función de una base de datos del genoma que correspondía a las células utilizadas. Pudieron vincular la mayoría de los registros de datos con el genoma correspondiente, con una tasa de precisión de más del 80 %.
A diferencia de los datos sobre la expresión génica y los EQTL, los científicos solo pueden ver las bases de datos del genoma completas para proteger la información de identificación de los donantes. Sin embargo, los investigadores señalan que los datos del genoma de un participante podrían estar disponibles públicamente en otro lugar. Por ejemplo, podría haberlos subido en un sitio web de genealogía en el que los usuarios envían muestras de ADN para obtener más información sobre su descenso. En este caso, un atacante podría identificar a una persona cuyas células están en un solo conjunto de datos de células analizando su genoma. Esto podría descubrir datos personales relacionados con una característica sensible, como un trastorno psiquiátrico, ya que los participantes de la investigación a menudo son seleccionados para examinar la biología de estas condiciones complejas.Las lesiones de protección de datos como esta podrían tener consecuencias reales, como la discriminación en el lugar de trabajo, dice Gürsoy. Agrega que las fugas podrían incluso tener un impacto en las generaciones futuras, ya que las características genéticas pueden transmitirse a los descendientes. "Todo lo que se conoce sobre nosotros es llevado a cabo por generaciones", dice ella.
Bradley Malin, quien en el área del intercambio de datos del genoma a gran escala en la Universidad de Vanderbilt en Nashville, Tennessee, investiga el estudio como una "nueva extensión y contribución a la literatura". Agrega que la investigación futura podría investigar si los datos del genoma también podrían estar vinculados en registros de datos más grandes que contienen las muestras de miles o millones de personas.
Intereses de competencia
Los científicos no están seguros de la mejor manera de abordar las preocupaciones de protección de datos. "Existe el deseo de proteger la privacidad del individuo, pero también el deseo de promover la investigación médica colectivamente, y desafortunadamente están en contradicción entre sí", dice Mark Gerstein, quien está investigando en la Universidad de Yale en los datos de New Haven, Connecticut, Medic. La solución más simple sería dificultar el acceso a los datos genéticos, pero eso influiría negativamente en la investigación, dice. "Tenemos que compartir y agregar grandes cantidades de información", explica. "Si bloqueamos todo y lo hacemos más privado, realmente dificulta todo el proceso".
En su estudio, Gürsoy y sus colegas requieren una mayor transparencia sobre los riesgos para los participantes que comparten sus datos del genoma y sugieren que los investigadores deben asegurarse de que los donantes acepten transmitir sus datos. Otra forma posible podría ser el cifrado de datos personales si usted forma parte de una base de datos pública. Los autores reconocen que esto complicaría el proceso de crear y esperar registros de datos, pero es de opinión que podría ayudar a proteger la privacidad de los participantes.
-
Walker, C. R. et al. Celular https://doi.org/10.1016/j.cell.2024.09.012 (2024).