Constructor de ADN para IA: el sistema Evo 2 ha aprendido a escribir genomas desde cero

Constructor de ADN para IA: el sistema Evo 2 ha aprendido a escribir genomas desde cero

La gramática universal de la naturaleza, desde los humanos hasta los mamuts.

image

La molécula de ADN está compuesta por solo cuatro "letras": los nucleótidos A, T, C y G. Con este alfabeto aparentemente simple, la naturaleza ha dado origen a toda la diversidad de organismos vivos en la Tierra. Ahora, científicos del Instituto Arc, la Universidad de Stanford y la empresa Nvidia han desarrollado el algoritmo de inteligencia artificial Evo 2, capaz no solo de analizar genomas existentes, sino también de crear nuevas secuencias funcionales para aplicaciones en medicina genética y biología sintética.

La información genética en las células está codificada en largas cadenas de ADN que forman los cromosomas. Cada organismo posee un conjunto único de genes, segmentos de ADN que contienen instrucciones para la producción de proteínas. Entre estas regiones codificantes se encuentran secuencias regulatorias, que durante mucho tiempo se consideraron "ADN basura". Sin embargo, hoy se sabe que estos fragmentos desempeñan un papel clave en la regulación de los genes y están estrechamente relacionados con diversas enfermedades. Precisamente por esto, su estudio se ha convertido en una de las principales tareas del nuevo algoritmo.

Evo 2 está diseñado siguiendo el principio de los grandes modelos de lenguaje, similares a los utilizados en los chatbots actuales. Sin embargo, en lugar de procesar lenguajes humanos, este sistema estudia secuencias de ADN de distintos organismos. Su entrenamiento se basó en los genomas de 128 000 especies, desde bacterias hasta humanos, con un total de 9,3 billones de pares de nucleótidos.

El desarrollo de la IA prestó especial atención a los eucariotas, organismos con una estructura celular compleja que incluye plantas, animales y hongos. Sus genomas son significativamente más complejos que los de las bacterias. En los eucariotas, un solo gen puede producir múltiples proteínas a través del mecanismo de empalme alternativo. Además, la actividad génica está regulada por una red de interruptores dispersos a lo largo de las regiones no codificantes del ADN.

La versión anterior del algoritmo, presentada hace un año, se centraba principalmente en los genomas de microbios y virus, con un total de tres millones de muestras. La nueva versión amplía este alcance 30 veces. Además, Evo 2 puede analizar simultáneamente ocho veces más "letras" genéticas, lo que le permite identificar patrones dentro de un contexto mucho más amplio.

Para entrenar el modelo, los investigadores crearon una base de datos especial llamada OpenGenome2, que incluye los genomas de organismos de todas las ramas del árbol de la vida. Se desarrollaron dos versiones del sistema: una más compacta, entrenada con 2,4 billones de nucleótidos, y una versión completa que abarca la totalidad del conjunto de datos. El proceso de entrenamiento duró varios meses y requirió más de 2000 unidades de procesamiento gráfico Nvidia H100.

Uno de los mayores logros de Evo 2 ha sido su capacidad para identificar y analizar elementos reguladores, segmentos del genoma que funcionan como interruptores genéticos. Estos elementos determinan cuándo y en qué células debe activarse un gen, la intensidad de su expresión y la duración de su actividad. A diferencia de los genes en sí, las regiones reguladoras pueden estar ubicadas a millones de pares de bases de distancia de los segmentos de ADN que controlan, lo que dificulta su estudio mediante métodos tradicionales. Sin embargo, su mal funcionamiento puede causar enfermedades graves, ya que altera completamente los procesos de activación y desactivación de los genes en las células.

El algoritmo analiza millones de secuencias genéticas de diferentes especies para descubrir patrones ocultos. Por ejemplo, al trabajar con el gen BRCA1, cuyas mutaciones están asociadas con el cáncer de mama, Evo 2 ha demostrado una precisión superior al 90% en la identificación de cambios en la estructura del ADN que pueden representar un riesgo para la salud. A diferencia de los métodos diagnósticos tradicionales, que se basan en análisis de imágenes médicas como mamografías, esta IA examina directamente las secuencias de nucleótidos y evalúa cómo una mutación específica podría afectar la función de un gen. Este enfoque permite detectar posibles riesgos antes de que aparezcan alteraciones físicas en los tejidos.

Al analizar la estructura del genoma humano, Evo 2 también ha aprendido a identificar elementos funcionales similares en el ADN de especies extintas, como el mamut lanudo. En esencia, ha descifrado las reglas universales que la naturaleza utiliza para "programar" los organismos vivos.

El objetivo principal de Evo 2 es desarrollar genomas funcionales con características predeterminadas. Si bien su versión anterior generaba códigos bacterianos con errores críticos que los hacían inviables, la nueva iteración ha logrado una mayor precisión y estabilidad.

Los investigadores comenzaron probando el algoritmo con una tarea relativamente sencilla: la síntesis del ADN mitocondrial humano. Las mitocondrias, responsables de la producción de energía celular, contienen un pequeño conjunto de 13 genes y varios tipos de ARN. Para que una célula funcione correctamente, todas estas moléculas deben interactuar de manera precisa. La IA generó con éxito 250 variantes únicas de código genético, cada una con aproximadamente 16 000 nucleótidos. Posteriormente, la herramienta AlphaFold 3 confirmó que la información codificada se traducía en proteínas con estructuras equivalentes a las mitocondriales naturales.

Motivados por este éxito, los investigadores realizaron experimentos aún más ambiciosos. Evo 2 logró diseñar el conjunto mínimo de información genética para una bacteria, con 580 000 nucleótidos, suficientes para mantener una forma de vida simple. Luego, sintetizó un cromosoma artificial de levadura con 330 000 nucleótidos. Incluso llegaron a codificar un mensaje de texto dentro del genoma de un ratón de laboratorio.

Por ahora, todos estos resultados existen únicamente en formato digital, pero los científicos ya están preparando experimentos para probarlos en células vivas. En el futuro, esta tecnología podría revolucionar la medicina, por ejemplo, con terapias génicas de precisión, donde los tratamientos se activarían exclusivamente en tipos celulares específicos, minimizando los efectos secundarios.

Combinado con otras herramientas de inteligencia artificial, Evo 2 podría convertirse en la base para el diseño de nuevas formas de vida sintética con propiedades definidas. Sin embargo, aún queda un largo camino de pruebas y mejoras antes de que esto sea una realidad.

Las huellas digitales son tu debilidad, y los hackers lo saben

¡Suscríbete y descubre cómo borrarlas!