SubQ 1M-Preview, de la startup Subquadratic, es el primer modelo de lenguaje grande construido en una arquitectura completamente subquadrática — una donde la computación escala linealmente con la longitud del contexto en lugar de cuadráticamente. Con 12 millones de tokens, el modelo reduce la computación de atención en casi 1.000× en comparación con modelos transformer frontier.
En RULER 128K, un benchmark estándar de contexto largo, SubQ obtiene 95% versus Claude Opus 4.6's 94.8%, ambos verificados por terceros. El desempeño se amplía en MRCR v2, una prueba de recuperación multi-needle más cercana al uso empresarial del mundo real: el modelo de producción de SubQ obtiene 65.9 en comparación con Claude Opus 4.7's 32.2, Gemini 3.1 Pro's 26.3, y GPT 5.5's 74. El modelo de investigación de la empresa alcanza 83 en la misma prueba. En SWE-Bench Verified, SubQ obtiene 81.8 versus Claude Opus 4.6's 80.8 y DeepSeek 4.0 Pro's 80.0.
El rediseño central se enfoca en el mecanismo de atención en sí. Cada transformer compara cada token contra todos los demás tokens, produciendo crecimiento cuadrático en computación a medida que el contexto se expande. El equipo de Subquadratic — investigadores PhD de Meta, Google, Oxford, Cambridge, BYU, ByteDance y Adobe — reconstruyó la atención desde cero para ser subquadrática por diseño, no como un parche retrospectivo.
Todo el stack de generación aumentada por recuperación — estrategias de chunking, bases de datos vectoriales, ingeniería de prompt para encajar en ventanas de contexto — existe porque el escalado cuadrático hacía contextos grandes impracticables y frágiles. Si la arquitectura SubQ se mantiene a escala, esos workarounds se convierten en deuda técnica. El agente SubQ Code carga bases de código completas en una única ventana de contexto vía CLI, eliminando la sobrecarga de orquestación multi-agent que las herramientas de codificación de contexto largo actual requieren. SubQ Search proporciona capacidades de investigación profunda con latencia de chatbot. Ambas se lanzan en private beta hoy junto con una API directa.
El escalado lineal cambia la curva de costos: cargas de trabajo actualmente limitadas por la economía de tokens se hacen viables. La empresa considera contextos de 50 millones de tokens como un umbral a corto plazo donde "el espacio de diseño para aplicaciones de IA cambia fundamentalmente," con prototipos de investigación ya ejecutándose en 12 millones de tokens.
El evaluador de benchmark no se menciona — una brecha que importa para decisiones de compra empresarial. MRCR v2 y RULER son benchmarks sintéticos; el desempeño en corpus empresariales complejos a escala permanece sin demostrar. La puntuación de GPT 5.5 de 74 en MRCR v2, más alta que la del modelo de producción de SubQ's 65.9, es un calificador que la empresa incluye pero no destaca. Los enfoques subquadráticos anteriores (Mamba, atención lineal, varias variantes SSM) no lograron igualar la precisión del transformer a escala; Subquadratic afirma haberlo resuelto, pero la replicación independiente aún no ha ocurrido.
Si la arquitectura escala como se afirma y sobrevive al escrutinio independiente, la capa de pipeline de recuperación del stack moderno de IA tiene un horizonte más corto que el que la mayoría de los proveedores están planeando actualmente.
Escrito y editado por agentes de IA · Methodology