Uso de IA para predecir aumentos repentinos de COVID – Harvard Gazette
GACETA: Creo que el número que analizó, 6 millones de genomas, sorprendería a la mayoría de los lectores, si se trata de genomas únicos. ¿Cuántos hay?
LO MEJOR: Lo que llamamos un genoma es una secuencia típicamente de un paciente individual. Tendemos a pensar en un genoma que representa el virus de un paciente. Esa es una aproximación bastante buena de lo que hay en la base de datos. Pero la infección de cada paciente corresponde a muchos millones de copias del virus, por lo que es una pequeña fracción de la cantidad de eventos de replicación del SARS-CoV-2 que se han producido en la pandemia.
GACETA: ¿Hay al menos pequeñas variaciones en el virus en el cuerpo de cada paciente?
LO MEJOR: Hay pequeñas variaciones dentro de una persona determinada, pero no necesitamos modelarlas todas para comprender la pandemia. De hecho, muchas de las secuencias virales en diferentes individuos son idénticas al nivel de consenso. Así que no hay 6,5 millones de secuencias genómicas únicas. Algunos son idénticos. Eso es en realidad lo que rastreamos, e incluso engrosamos [generalize] los datos al nivel de los linajes, que son esencialmente grupos de genomas genéticamente similares que consideramos juntos. Luego nos preguntamos, en diferentes poblaciones a lo largo del tiempo: ¿vemos más de ese grupo de genomas llamado “el linaje” o menos de ese grupo de genomas a lo largo del tiempo? A los efectos de este modelo, utilizamos 3000 linajes y cada uno contiene una constelación única de mutaciones. Sin embargo, las mutaciones pueden ocurrir en más de un linaje. Y ahí es donde podemos obtener el poder de preguntar qué mutaciones son responsables de que un linaje crezca con el tiempo o desaparezca. Y, debido a que personas de todo el mundo están contribuyendo con genomas a estas bases de datos, tenemos esencialmente una vista en tiempo real de qué linajes están creciendo en qué lugares, a veces debido al azar, como un gran evento de superpropagación. Pero si encontramos que el mismo linaje domina en Massachusetts, Nueva York y California, eso nos dice que probablemente haya algo en ese linaje. Podemos inferir qué es eso haciendo lo mismo con las mutaciones. Si vemos una mutación como N501Y, por ejemplo, que se encuentra constantemente en linajes que tienden a crecer, entonces pensamos que hay algo en esa mutación que hace que ese linaje crezca en una población.
GACETA: ¿Puede este modelo predecir futuras variantes que podrían surgir, o realmente está trabajando con genomas existentes, clasificando los miles de linajes por aquellos que podrían propagarse? ¿Puede realmente mirar hacia adelante y decir: “Bueno, es probable que esto mute aquí. Y eso va a ser un problema”?
LO MEJOR: Tipo de ambos. Una cosa que hace bien es proporcionar una estimación de la tasa de crecimiento de los diferentes linajes que circulan actualmente. Asignamos una aptitud a cada mutación que se ha observado en la población, y si una mutación nunca se ha observado antes, no podemos asignarle una aptitud. Entonces, si hay una cepa hipotética de combinaciones de mutaciones que se han observado en otros lugares, pero que no se juntaron antes en el mismo linaje, podemos pronosticar la tasa de crecimiento de esa cepa. Si no hemos observado las mutaciones, el modelo no conoce los efectos de esa mutación en particular.
GACETA: ¿Cómo empezó el trabajo?
SABETI: Jacob, entonces estudiante de medicina convertido en posdoctorado, y otro estudiante de posgrado convertido en posdoctorado, Danny Park, habían estado investigando durante mucho tiempo métodos para detectar variantes adaptativas en microbios, comenzando con la malaria; era un proyecto apasionante del de laboratorio Nuestro trabajo inicial fue detectar la selección natural en humanos y otros mamíferos, y el desafío allí es que, debido a que los tiempos de generación son tan largos, tenemos que inferir eventos históricos. En las enfermedades infecciosas, lo sorprendente es que podemos ver cómo se desarrolla la selección natural ante nuestros ojos. Podemos rastrearlo en tiempo real. Ese es el poder de este enfoque.
Pero cuando Jacob y otros comenzaron este trabajo sobre la malaria hace una década, los datos eran demasiado escasos. En medio del ébola, comenzamos a obtener datos de mayor densidad y publicamos trabajos con Jeremy Luban [at the University of Massachusetts Chan Medical School] identificando variantes que aumentaron en prevalencia. Pero todavía había muy pocos datos para hacer inferencias estadísticas de la naturaleza que podemos hacer ahora. Con la pandemia, pasamos muy rápidamente de una situación en la que no teníamos suficientes datos a una situación en la que teníamos tantos datos que la gente no podía gestionarlos. Y eran datos muy heterogéneos: no conocíamos las fuentes de datos; no sabíamos la calidad de las secuencias y, por lo tanto, cómo curar y básicamente domesticar ese conjunto de datos masivo para obtener resultados sólidos.
LO MEJOR: En ese momento, no estábamos acostumbrados a trabajar con millones de genomas microbianos. Estábamos acostumbrados a tratar con cientos o miles. Fue entonces cuando empezamos a trabajar con el PyR.0 equipo de Broad, que había venido de Uber AI, donde habían construido este lenguaje de programación probabilístico para realizar cálculos en conjuntos de datos realmente grandes. Fritz Obermeyer fue la persona principal que trabajó en este proyecto. Pudo armar un modelo que tenía sentido de qué linajes se transmiten más fácilmente y crecen más rápidamente en la población y representó esos linajes por sus mutaciones constituyentes. La otra innovación crítica del trabajo de Fritz es que puede ejecutarse en hardware de procesamiento moderno, utilizando innovaciones en ingeniería de software y potencia informática moderna. Eso hizo esto posible de una manera que no hubiera sido posible antes.
GACETA: ¿Qué tan importante fue un enfoque interdisciplinario en esta investigación? Parece que tuviste mucha gente diferente involucrada.
SABETI: Esto está en la interfaz de lo que llamamos «variante a función», y personas de matemáticas, informática y biología computacional se reunieron con virólogos, biólogos moleculares, investigadores de enfermedades infecciosas y médicos. Al ir del banco a la cama, ve patrones y se siente intrigado por ellos.
GACETA: Claramente, la capacidad de predecir variantes y cuáles van a dominar es importante. ¿Qué ves de cara a este modelo?
SABETI: El Santo Grial que el campo a menudo busca es la capacidad de predecir desde el principio qué mutaciones serán importantes y cuáles serán sus efectos, esencialmente cómo se adaptará un microbio. Para hacerlo, necesitaremos estos modelos masivos para interrogar realmente los genomas virales y microbianos y, cuando vea mutaciones diferentes suficientes veces, comience a descubrir los patrones y la lógica subyacente. Creo que podemos llegar al punto en el que empecemos a comprender cómo va a ocurrir la adaptación y cómo debemos abordarla en el desarrollo de nuestras contramedidas, pero requerirá muchos datos. Cada vez que la gente pregunta: «¿Hemos generado demasiados datos?», Yo argumento que no lo hemos hecho ni mucho menos. Realmente deberíamos llegar al punto en que se convierta en una rutina secuenciar cada genoma microbiano detectado en las infecciones porque hay cosas que ni siquiera sabemos que es posible preguntar todavía porque no tenemos los datos.
La Gaceta Diaria
Regístrese para recibir correos electrónicos diarios para recibir las últimas noticias de Harvard.