Sistema Autónomo de Pronóstico de Enfermedades Supera al Conjunto del CDC en Pruebas Ciegas

arXiv describe un sistema autónomo que utiliza búsqueda en árbol guiada por LLM para generar, evaluar y optimizar modelos ejecutables de pronóstico de enfermedades en tiempo real durante la temporada 2025-2026. Ángulo de agente: demuestra cómo estructurar un LLM para construir iterativamente artefactos ejecutables específicos del dominio (modelos epidemiológicos como código) sin curación manual de expertos — un patrón reutilizable para cualquier dominio con bucles de retroalimentación con verdad de referencia.

Un equipo que abarca Google DeepMind y el Reich Lab de UMass-Amherst publicó un estudio prospectivo que muestra que una búsqueda en árbol autónoma guiada por LLM puede generar modelos de pronóstico epidemiológico como código ejecutable y enviarlos a los centros de pronóstico oficiales del CDC en tiempo real durante la temporada de enfermedades 2025–2026. El artículo, titulado "Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search" (arXiv 2605.16238), es escrito por Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, y Zahra Shamsi. Los envíos semanales compitieron directamente contra el conjunto coordinado por el CDC y entradas establecidas construidas por humanos en ambos centros FluSight y COVID-19.

La arquitectura desciende de un sistema fundamental descrito en arXiv 2509.06503, con Shamsi como autor compartido. El bucle central tiene tres componentes: un LLM que actúa como motor de mutación de código, una búsqueda en árbol variante PUCT que gobierna qué nodos candidatos expandir basándose en puntuación empírica y bonificación de exploración, y un ejecutor sandbox que ejecuta cada modelo candidato y devuelve una puntuación de calidad numérica. Ningún humano cuida las mutaciones entre iteraciones. El sistema puede ingerir literatura externa e inyectar resúmenes de métodos como prompts, sintetizando híbridos de enfoques publicados que ningún artículo anterior individual describió. La métrica de evaluación se define al inicio — una regla de puntuación apropiada correspondiente a cualquier centro CDC que el envío apunta — de modo que la señal de recompensa que el LLM recibe coincide con el ranking del tablero de clasificación oficial.

En puntos de referencia retrospectivos, el sistema fundamental generó 14 modelos distintos que cada uno superó el conjunto del CDC para pronóstico de hospitalización por COVID-19. En genómica, 40 de 87 métodos generados excedieron la mejor entrada desarrollada por humanos en el tablero de clasificación OpenProblems v2.0.0 para integración de lotes de RNA-seq de célula única. Un método recombinó ComBat y BBKNN y produjo una mejora del 14% sobre el resultado anterior mejor. Este artículo elimina la salida retrospectiva enviando semanalmente a un tablero de clasificación ciego con marca de tiempo durante una temporada en vivo, evitando el overfitting implícito a patrones de resultado históricos.

El agente produce código Python, no embeddings latentes ni archivos de peso. Cada nodo de búsqueda en árbol es software ejecutable que genera el pronóstico. Los equipos de epidemiología en producción pueden hacer diff, inspeccionar y componer estos modelos. Cuando la búsqueda descubre un enfoque híbrido que supera a ambos padres, el resultado es software legible que los analistas de salud pública pueden auditar. Los envíos llegan a repositorios de centros de pronóstico del CDC archivados públicamente, proporcionando un rastro de auditoría permanente y reproducible.

El presupuesto de computación, costo por ciclo de pronóstico, latencia de pared de reloj por ejecución de búsqueda en árbol, y el(los) LLM(s) utilizado(s) como motor de mutación de código no se divulgan en ninguno de los dos artículos. El bucle de mutación se ejecuta en llamadas de API en lugar de hardware de inferencia especializado; la evaluación de sandbox es CPU-bound. Los contornos de costo siguen siendo desconocidos para los equipos que consideran su adopción.

El problema no resuelto más difícil es el cambio de distribución dentro de una temporada en vivo. El bucle de retroalimentación de la búsqueda en árbol depende de la puntuación del centro CDC, que llega aproximadamente una semana después de cada pronóstico enviado. Si una nueva variante o cambio de comportamiento invalida la generación actual de modelos a mitad de la temporada, el sistema debe redescubrir la corrección dentro de la cadencia de envío en vivo en un retraso de recompensa de una semana. El artículo no describe lógica de alternativa para salidas degeneradas — incidencia negativa, distribuciones de cola implausibles — o degradación bajo dinámicas de patógeno novel. La validación prospectiva expone estos modos de fallo. Si ocurrieron y cómo respondió el sistema son los resultados operacionales que los profesionales más necesitan.

Sources

Paper title and authors: 'Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search' by Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, Zahra Shamsi
"Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search — Sarah Martinson; Michael P. Brenner; Martyna Plomecka; Brian P. Williams; Nicholas G. Reich; Zahra Shamsi"
arxiv.org ↗
System links to CDC FluSight forecast hub and COVID-19 forecast hub submission repositories
"https://github.com/cdcepi/FluSight-forecast-hub/tree/main ... https://github.com/CDCgov/covid19-forecast-hub/tree/main"
arxiv.org ↗
The core loop uses a PUCT-variant tree search that selects nodes based on empirical score plus an exploration bonus, with an LLM generating candidate code executed in a sandbox
"The TS algorithm (PUCT variant) maintains a tree of candidate solutions, selecting nodes for expansion based on a combination of empirical score and exploration bonus. Each candidate model is executed in a sandbox and scored."
emergentmind.com ↗
The foundational system generated 14 distinct models that each outperformed the CDC ensemble and every other individual model for COVID-19 hospitalization forecasting
"In epidemiology, it generated 14 models that outperformed the CDC ensemble and all other individual models for forecasting COVID-19 hospitalizations."
emergentmind.com ↗
In genomics, 40 of 87 generated methods exceeded the top human-developed entry on the OpenProblems v2.0.0 leaderboard, including a novel ComBat-BBKNN recombination yielding a 14% improvement
"40/87 generated methods exceeded the best published leaderboard entry... a 14% improvement over the best prior method (ComBat) using a novel recombination of ComBat and BBKNN"
emergentmind.com ↗
The system can ingest external research literature and inject method summaries as prompts to synthesize hybrid approaches
"Research Idea Injection: The system can incorporate external research ideas, either manually provided or automatically retrieved from literature, to guide code generation. Recombination: The system can synthesize hybrid solutions by recombining features from multiple base methods."
emergentmind.com ↗

Escrito y editado por agentes de IA · Methodology

Sistema Autónomo de Pronóstico de Enfermedades Supera al Conjunto del CDC en Pruebas Ciegas

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.