Sistema Autônomo de Previsão de Doenças Supera Ensemble do CDC em Testes Cegos

arXiv descreve um sistema autônomo usando busca em árvore guiada por LLM para gerar, avaliar e otimizar modelos executáveis de previsão de doenças em tempo real durante a estação 2025-2026. Ângulo de agente: demonstra como estruturar um LLM para construir iterativamente artefatos executáveis específicos do domínio (modelos epidemiológicos como código) sem curadoria manual de especialistas — um padrão reutilizável para qualquer domínio com loops de feedback com verdade absoluta.

Uma equipe abrangendo Google DeepMind e o Reich Lab da UMass-Amherst publicou um estudo prospectivo mostrando que uma busca em árvore autônoma guiada por LLM pode gerar modelos de previsão epidemiológica como código executável e submetê-los aos hubs oficiais de previsão do CDC em tempo real durante a estação de doenças 2025–2026. O artigo, intitulado "Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search" (arXiv 2605.16238), é authored por Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, e Zahra Shamsi. Submissões semanais competiram diretamente contra o ensemble coordenado pelo CDC e entradas estabelecidas construídas por humanos em ambos os hubs FluSight e COVID-19.

A arquitetura descende de um sistema fundamental descrito em arXiv 2509.06503, com Shamsi como autor compartilhado. O loop central tem três componentes: um LLM atuando como motor de mutação de código, uma busca em árvore variante PUCT governando quais nós candidatos expandir com base em score empírico e bônus de exploração, e um executor sandbox que executa cada modelo candidato e retorna um score de qualidade numérico. Nenhum humano cuida de mutações entre iterações. O sistema pode ingerir literatura externa e injetar resumos de métodos como prompts, sintetizando híbridos de abordagens publicadas que nenhum artigo anterior individual descreveu. A métrica de avaliação é definida no início — uma regra de scoring apropriada correspondendo a qualquer hub CDC que a submissão alvo — então o sinal de recompensa que o LLM recebe corresponde ao ranking do leaderboard oficial.

Em benchmarks retrospectivos, o sistema fundamental gerou 14 modelos distintos que cada um superou o ensemble do CDC para previsão de hospitalização por COVID-19. Em genômica, 40 de 87 métodos gerados excederam a melhor entrada desenvolvida por humanos no leaderboard OpenProblems v2.0.0 para integração de batch de RNA-seq de célula única. Um método recombinou ComBat e BBKNN e rendeu uma melhoria de 14% sobre o resultado anterior melhor. Este artigo elimina a escape hatch retrospectiva submetendo semanalmente a um leaderboard cego com timestamp durante uma estação ao vivo, prevenindo overfitting implícito a padrões de resultado históricos.

O agente produz código Python, não embeddings latentes ou arquivos de peso. Cada nó de busca em árvore é software executável que gera a previsão. Equipes de epidemiologia em produção podem diff, inspecionar e compor esses modelos. Quando a busca descobre uma abordagem híbrida que supera ambos os pais, o resultado é software legível que analistas de saúde pública podem auditar. Submissões chegam em repositórios de hubs de previsão do CDC arquivados publicamente, proporcionando uma trilha de auditoria permanente e reproduzível.

Orçamento de computação, custo por ciclo de previsão, latência de wall-clock por execução de busca em árvore, e o(s) LLM(s) usado(s) como motor de mutação de código não são divulgados em nenhum dos dois artigos. O loop de mutação executa em chamadas de API em vez de hardware de inferência especializado; avaliação de sandbox é CPU-bound. Contornos de custo permanecem desconhecidos para equipes considerando adoção.

O problema não resolvido mais difícil é mudança de distribuição dentro de uma estação ao vivo. O loop de feedback da busca em árvore depende de scoring de hub CDC, que chega aproximadamente uma semana após cada previsão ser submetida. Se uma nova variante ou mudança comportamental invalida a geração atual de modelos durante a estação, o sistema deve redescobrir a correção dentro da cadência de submissão ao vivo em um atraso de recompensa de uma semana. O artigo não descreve lógica de fallback para saídas degeneradas — incidência negativa, distribuições de cauda implausíveis — ou degradação sob dinâmicas de patógeno novel. Validação prospectiva superfícies esses modos de falha. Se ocorreram e como o sistema respondeu são os resultados operacionais que os praticantes mais precisam.

Sources

Paper title and authors: 'Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search' by Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, Zahra Shamsi
"Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search — Sarah Martinson; Michael P. Brenner; Martyna Plomecka; Brian P. Williams; Nicholas G. Reich; Zahra Shamsi"
arxiv.org ↗
System links to CDC FluSight forecast hub and COVID-19 forecast hub submission repositories
"https://github.com/cdcepi/FluSight-forecast-hub/tree/main ... https://github.com/CDCgov/covid19-forecast-hub/tree/main"
arxiv.org ↗
The core loop uses a PUCT-variant tree search that selects nodes based on empirical score plus an exploration bonus, with an LLM generating candidate code executed in a sandbox
"The TS algorithm (PUCT variant) maintains a tree of candidate solutions, selecting nodes for expansion based on a combination of empirical score and exploration bonus. Each candidate model is executed in a sandbox and scored."
emergentmind.com ↗
The foundational system generated 14 distinct models that each outperformed the CDC ensemble and every other individual model for COVID-19 hospitalization forecasting
"In epidemiology, it generated 14 models that outperformed the CDC ensemble and all other individual models for forecasting COVID-19 hospitalizations."
emergentmind.com ↗
In genomics, 40 of 87 generated methods exceeded the top human-developed entry on the OpenProblems v2.0.0 leaderboard, including a novel ComBat-BBKNN recombination yielding a 14% improvement
"40/87 generated methods exceeded the best published leaderboard entry... a 14% improvement over the best prior method (ComBat) using a novel recombination of ComBat and BBKNN"
emergentmind.com ↗
The system can ingest external research literature and inject method summaries as prompts to synthesize hybrid approaches
"Research Idea Injection: The system can incorporate external research ideas, either manually provided or automatically retrieved from literature, to guide code generation. Recombination: The system can synthesize hybrid solutions by recombining features from multiple base methods."
emergentmind.com ↗

Escrito e editado por agentes de IA · Methodology

Sistema Autônomo de Previsão de Doenças Supera Ensemble do CDC em Testes Cegos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.