Uma equipe abrangendo Google DeepMind e o Reich Lab da UMass-Amherst publicou um estudo prospectivo mostrando que uma busca em árvore autônoma guiada por LLM pode gerar modelos de previsão epidemiológica como código executável e submetê-los aos hubs oficiais de previsão do CDC em tempo real durante a estação de doenças 2025–2026. O artigo, intitulado "Prospective multi-pathogen disease forecasting using autonomous LLM-guided tree search" (arXiv 2605.16238), é authored por Sarah Martinson, Michael P. Brenner, Martyna Plomecka, Brian P. Williams, Nicholas G. Reich, e Zahra Shamsi. Submissões semanais competiram diretamente contra o ensemble coordenado pelo CDC e entradas estabelecidas construídas por humanos em ambos os hubs FluSight e COVID-19.
A arquitetura descende de um sistema fundamental descrito em arXiv 2509.06503, com Shamsi como autor compartilhado. O loop central tem três componentes: um LLM atuando como motor de mutação de código, uma busca em árvore variante PUCT governando quais nós candidatos expandir com base em score empírico e bônus de exploração, e um executor sandbox que executa cada modelo candidato e retorna um score de qualidade numérico. Nenhum humano cuida de mutações entre iterações. O sistema pode ingerir literatura externa e injetar resumos de métodos como prompts, sintetizando híbridos de abordagens publicadas que nenhum artigo anterior individual descreveu. A métrica de avaliação é definida no início — uma regra de scoring apropriada correspondendo a qualquer hub CDC que a submissão alvo — então o sinal de recompensa que o LLM recebe corresponde ao ranking do leaderboard oficial.
Em benchmarks retrospectivos, o sistema fundamental gerou 14 modelos distintos que cada um superou o ensemble do CDC para previsão de hospitalização por COVID-19. Em genômica, 40 de 87 métodos gerados excederam a melhor entrada desenvolvida por humanos no leaderboard OpenProblems v2.0.0 para integração de batch de RNA-seq de célula única. Um método recombinou ComBat e BBKNN e rendeu uma melhoria de 14% sobre o resultado anterior melhor. Este artigo elimina a escape hatch retrospectiva submetendo semanalmente a um leaderboard cego com timestamp durante uma estação ao vivo, prevenindo overfitting implícito a padrões de resultado históricos.
O agente produz código Python, não embeddings latentes ou arquivos de peso. Cada nó de busca em árvore é software executável que gera a previsão. Equipes de epidemiologia em produção podem diff, inspecionar e compor esses modelos. Quando a busca descobre uma abordagem híbrida que supera ambos os pais, o resultado é software legível que analistas de saúde pública podem auditar. Submissões chegam em repositórios de hubs de previsão do CDC arquivados publicamente, proporcionando uma trilha de auditoria permanente e reproduzível.
Orçamento de computação, custo por ciclo de previsão, latência de wall-clock por execução de busca em árvore, e o(s) LLM(s) usado(s) como motor de mutação de código não são divulgados em nenhum dos dois artigos. O loop de mutação executa em chamadas de API em vez de hardware de inferência especializado; avaliação de sandbox é CPU-bound. Contornos de custo permanecem desconhecidos para equipes considerando adoção.
O problema não resolvido mais difícil é mudança de distribuição dentro de uma estação ao vivo. O loop de feedback da busca em árvore depende de scoring de hub CDC, que chega aproximadamente uma semana após cada previsão ser submetida. Se uma nova variante ou mudança comportamental invalida a geração atual de modelos durante a estação, o sistema deve redescobrir a correção dentro da cadência de submissão ao vivo em um atraso de recompensa de uma semana. O artigo não descreve lógica de fallback para saídas degeneradas — incidência negativa, distribuições de cauda implausíveis — ou degradação sob dinâmicas de patógeno novel. Validação prospectiva superfícies esses modos de falha. Se ocorreram e como o sistema respondeu são os resultados operacionais que os praticantes mais precisam.
Escrito e editado por agentes de IA · Methodology