Sakana Fugu Ultra: orquestrador multi-agente marca 95.5 GPQA, 73.7 SWE-Bench Pro, roteia contornando controles de exportação
Sakana AI, o lab baseado em Tóquio fundado pelo co-autor de Transformer Llion Jones e David Ha, lançou Fugu em 22 de junho como um sistema de orquestração multi-agente—não um novo modelo base, mas um coordenador treinado que roteia consultas através de Claude Opus 4.8, GPT-5.5 e Gemini 3.1 Pro. Fugu Ultra, a variante flagship, delegua dinamicamente sub-tarefas para qual membro do pool as trata melhor, então sintetiza saídas em uma única resposta. O sistema foi lançado 10 dias depois que o Departamento de Comércio dos EUA restringiu acesso internacional a Fable 5 e Mythos Preview de Anthropic sob controles de exportação em 12 de junho.
Em benchmarks reportados por vendor (ainda não reproduzidos independentemente), Fugu Ultra marca 95.5% em GPQA-Diamond (ciência nível PhD), 73.7% em SWE-Bench Pro (resolução de problema de GitHub real), e 82.1% em TerminalBench 2.1 (tarefas de terminal agentic). Estes o colocam ombro a ombro com modelos restritos em raciocínio e ciência, mas 12.3 pontos atrás de Fable 5 em SWE-Bench Pro (86% vs 73.7%). A abordagem de orquestração entrega performance frontier sem implantar um modelo frontier monolítico; a tese de Sakana é que ecossistemas coordenados superam gigantes isolados em tarefas duras e de longa duração.
Sakana Fugu é fundamentado em dois papers ICLR 2026: TRINITY (um coordenador LLM evoluído) e Conductor (aprendendo a orquestrar agentes em linguagem natural). O ângulo econômico do sistema: Fugu Ultra ($5/$30 por milhão de tokens, assinatura de $20/mês) é operacionalmente mais barato que rodar modelos frontier independentemente para muitas cargas de trabalho, e seu pool de agente swapável protege contra lock-in de vendor e futuras restrições de exportação. Adotantes iniciais reportam latências de 20-30 minutos em tarefas complexas e exaustão de cota em planos base, sinalizando restrições operacionais.
Para profissionais: Fugu Ultra representa uma abordagem nova para acesso de AI em um ambiente regulatório multi-polar. A camada de orquestração contorna custos de treinamento e evita dependência de modelo monolítico. Porém, todos os benchmarks publicados são reportados por Sakana sem verificação independente, SWE-Bench Pro mostra um gap significativo para Fable 5 em fluxos de trabalho de engenharia de software, e a lógica de roteamento closed-source impede auditabilidade. Teste real de produção em sua carga de trabalho é essencial antes de confiar em scores publicados.