Sakana Fugu Ultra: orquestrador multi-agente puntua 95.5 GPQA, 73.7 SWE-Bench Pro, enruta contorno controles de exportación
Sakana AI, el lab con sede en Tóquio fundado por co-autor de Transformer Llion Jones y David Ha, lanzó Fugu el 22 de junio como un sistema de orquestación multi-agente—no un nuevo modelo base, sino un coordinador entrenado que enruta consultas a través de Claude Opus 4.8, GPT-5.5 y Gemini 3.1 Pro. Fugu Ultra, la variante insignia, delega dinámicamente sub-tareas a cualquier miembro del pool que las maneje mejor, luego sintetiza salidas en una única respuesta. El sistema se lanzó 10 días después de que el Departamento de Comercio de EE.UU. restringiera el acceso internacional a Fable 5 y Mythos Preview de Anthropic bajo controles de exportación el 12 de junio.
En benchmarks reportados por proveedor (aún no reproducidos independientemente), Fugu Ultra puntua 95.5% en GPQA-Diamond (ciencia nivel PhD), 73.7% en SWE-Bench Pro (resolución real de problema GitHub), y 82.1% en TerminalBench 2.1 (tareas terminal agentic). Estos lo colocan hombro con hombro con modelos restringidos en razonamiento y ciencia, pero 12.3 puntos por detrás de Fable 5 en SWE-Bench Pro (86% vs 73.7%). El enfoque de orquestación entrega rendimiento frontera sin desplegar un modelo frontera monolítico; la tesis de Sakana es que los ecosistemas coordinados superan a los gigantes aislados en tareas duras y de larga duración.
Sakana Fugu se basa en dos papers ICLR 2026: TRINITY (coordinador LLM evolucionado) y Conductor (aprendiendo a orquestar agentes en lenguaje natural). El ángulo económico del sistema: Fugu Ultra ($5/$30 por millón de tokens, suscripción desde $20/mes) es operacionalmente más barato que ejecutar modelos frontera independientemente para muchas cargas de trabajo, y su pool de agentes intercambiables protege contra bloqueo de proveedor y futuras restricciones de exportación. Los primeros usuarios reportan latencias de 20-30 minutos en tareas complejas y agotamiento de cuota en planes base, señalando limitaciones operacionales.
Para profesionales: Fugu Ultra representa un enfoque novedoso para acceso a AI en un entorno regulatorio multipolar. La capa de orquestación contornea costos de entrenamiento y evita dependencia de modelo monolítico. Sin embargo, todos los benchmarks publicados son reportados por Sakana sin verificación independiente, SWE-Bench Pro muestra una brecha significativa para Fable 5 en flujos de trabajo de ingeniería de software, y la lógica de enrutamiento closed-source impide auditabilidad. Pruebas de producción real en tu carga de trabajo es esencial antes de confiar en puntuaciones publicadas.