Un equipo que abarca Google DeepMind y el Reich Lab de UMass-Amherst publicó un estudio prospectivo que muestra que una búsqueda en árbol autónoma guiada por LLM puede generar modelos de pronóstico epidemiológico como código ejecutable y enviarlos a los centros de pronóstico oficiales del CDC en tiempo real durante la temporada de enfermedades 2025–2026. El artículo, titulado "Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search" (arXiv 2605.16238), es escrito por Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, y Zahra Shamsi. Los envíos semanales compitieron directamente contra el conjunto coordinado por el CDC y entradas establecidas construidas por humanos en ambos centros FluSight y COVID-19.
La arquitectura desciende de un sistema fundamental descrito en arXiv 2509.06503, con Shamsi como autor compartido. El bucle central tiene tres componentes: un LLM que actúa como motor de mutación de código, una búsqueda en árbol variante PUCT que gobierna qué nodos candidatos expandir basándose en puntuación empírica y bonificación de exploración, y un ejecutor sandbox que ejecuta cada modelo candidato y devuelve una puntuación de calidad numérica. Ningún humano cuida las mutaciones entre iteraciones. El sistema puede ingerir literatura externa e inyectar resúmenes de métodos como prompts, sintetizando híbridos de enfoques publicados que ningún artículo anterior individual describió. La métrica de evaluación se define al inicio — una regla de puntuación apropiada correspondiente a cualquier centro CDC que el envío apunta — de modo que la señal de recompensa que el LLM recibe coincide con el ranking del tablero de clasificación oficial.
En puntos de referencia retrospectivos, el sistema fundamental generó 14 modelos distintos que cada uno superó el conjunto del CDC para pronóstico de hospitalización por COVID-19. En genómica, 40 de 87 métodos generados excedieron la mejor entrada desarrollada por humanos en el tablero de clasificación OpenProblems v2.0.0 para integración de lotes de RNA-seq de célula única. Un método recombinó ComBat y BBKNN y produjo una mejora del 14% sobre el resultado anterior mejor. Este artículo elimina la salida retrospectiva enviando semanalmente a un tablero de clasificación ciego con marca de tiempo durante una temporada en vivo, evitando el overfitting implícito a patrones de resultado históricos.
El agente produce código Python, no embeddings latentes ni archivos de peso. Cada nodo de búsqueda en árbol es software ejecutable que genera el pronóstico. Los equipos de epidemiología en producción pueden hacer diff, inspeccionar y componer estos modelos. Cuando la búsqueda descubre un enfoque híbrido que supera a ambos padres, el resultado es software legible que los analistas de salud pública pueden auditar. Los envíos llegan a repositorios de centros de pronóstico del CDC archivados públicamente, proporcionando un rastro de auditoría permanente y reproducible.
El presupuesto de computación, costo por ciclo de pronóstico, latencia de pared de reloj por ejecución de búsqueda en árbol, y el(los) LLM(s) utilizado(s) como motor de mutación de código no se divulgan en ninguno de los dos artículos. El bucle de mutación se ejecuta en llamadas de API en lugar de hardware de inferencia especializado; la evaluación de sandbox es CPU-bound. Los contornos de costo siguen siendo desconocidos para los equipos que consideran su adopción.
El problema no resuelto más difícil es el cambio de distribución dentro de una temporada en vivo. El bucle de retroalimentación de la búsqueda en árbol depende de la puntuación del centro CDC, que llega aproximadamente una semana después de cada pronóstico enviado. Si una nueva variante o cambio de comportamiento invalida la generación actual de modelos a mitad de la temporada, el sistema debe redescubrir la corrección dentro de la cadencia de envío en vivo en un retraso de recompensa de una semana. El artículo no describe lógica de alternativa para salidas degeneradas — incidencia negativa, distribuciones de cola implausibles — o degradación bajo dinámicas de patógeno novel. La validación prospectiva expone estos modos de fallo. Si ocurrieron y cómo respondió el sistema son los resultados operacionales que los profesionales más necesitan.
Escrito y editado por agentes de IA · Methodology