SubQ Logra Precisión Frontier con Arquitectura Subquadrática

Subquadratic, startup fundada por investigadores de Meta, Google, Oxford y Cambridge, está lanzando SubQ 1M-Preview — un LLM que afirma es el primero construido en una arquitectura completamente subquadrática, donde la computación escala linealmente (no cuadráticamente) con la longitud del contexto. Los benchmarks de terceros muestran 95% en RULER 128K (superando a Claude Opus 4.6's 94.8%), 65.9 en MRCR v2 (vs. Claude Opus 4.7's 32.2 y Gemini 3.1 Pro's 26.3), y 81.8 en SWE-Bench Verified — mientras se ejecuta 52× más rápido que FlashAttention con 63% menos computación. Si la arquitectura se mantiene a escala, podría invalidar los workarounds de pipeline de recuperación (RAG, chunking, ingeniería de prompt) que definen la mayoría de los stacks de IA en producción hoy.

SubQ 1M-Preview, de la startup Subquadratic, es el primer modelo de lenguaje grande construido en una arquitectura completamente subquadrática — una donde la computación escala linealmente con la longitud del contexto en lugar de cuadráticamente. Con 12 millones de tokens, el modelo reduce la computación de atención en casi 1.000× en comparación con modelos transformer frontier.

En RULER 128K, un benchmark estándar de contexto largo, SubQ obtiene 95% versus Claude Opus 4.6's 94.8%, ambos verificados por terceros. El desempeño se amplía en MRCR v2, una prueba de recuperación multi-needle más cercana al uso empresarial del mundo real: el modelo de producción de SubQ obtiene 65.9 en comparación con Claude Opus 4.7's 32.2, Gemini 3.1 Pro's 26.3, y GPT 5.5's 74. El modelo de investigación de la empresa alcanza 83 en la misma prueba. En SWE-Bench Verified, SubQ obtiene 81.8 versus Claude Opus 4.6's 80.8 y DeepSeek 4.0 Pro's 80.0.

El rediseño central se enfoca en el mecanismo de atención en sí. Cada transformer compara cada token contra todos los demás tokens, produciendo crecimiento cuadrático en computación a medida que el contexto se expande. El equipo de Subquadratic — investigadores PhD de Meta, Google, Oxford, Cambridge, BYU, ByteDance y Adobe — reconstruyó la atención desde cero para ser subquadrática por diseño, no como un parche retrospectivo.

Todo el stack de generación aumentada por recuperación — estrategias de chunking, bases de datos vectoriales, ingeniería de prompt para encajar en ventanas de contexto — existe porque el escalado cuadrático hacía contextos grandes impracticables y frágiles. Si la arquitectura SubQ se mantiene a escala, esos workarounds se convierten en deuda técnica. El agente SubQ Code carga bases de código completas en una única ventana de contexto vía CLI, eliminando la sobrecarga de orquestación multi-agent que las herramientas de codificación de contexto largo actual requieren. SubQ Search proporciona capacidades de investigación profunda con latencia de chatbot. Ambas se lanzan en private beta hoy junto con una API directa.

El escalado lineal cambia la curva de costos: cargas de trabajo actualmente limitadas por la economía de tokens se hacen viables. La empresa considera contextos de 50 millones de tokens como un umbral a corto plazo donde "el espacio de diseño para aplicaciones de IA cambia fundamentalmente," con prototipos de investigación ya ejecutándose en 12 millones de tokens.

El evaluador de benchmark no se menciona — una brecha que importa para decisiones de compra empresarial. MRCR v2 y RULER son benchmarks sintéticos; el desempeño en corpus empresariales complejos a escala permanece sin demostrar. La puntuación de GPT 5.5 de 74 en MRCR v2, más alta que la del modelo de producción de SubQ's 65.9, es un calificador que la empresa incluye pero no destaca. Los enfoques subquadráticos anteriores (Mamba, atención lineal, varias variantes SSM) no lograron igualar la precisión del transformer a escala; Subquadratic afirma haberlo resuelto, pero la replicación independiente aún no ha ocurrido.

Si la arquitectura escala como se afirma y sobrevive al escrutinio independiente, la capa de pipeline de recuperación del stack moderno de IA tiene un horizonte más corto que el que la mayoría de los proveedores están planeando actualmente.

Sources

SubQ 1M-Preview is the first LLM built on a fully subquadratic architecture where compute grows linearly with context length
"SubQ 1M-Preview, is the first LLM built on a fully subquadratic architecture, one where compute grows linearly with context length."
subq.ai ↗
SubQ scores 95% on RULER 128K vs. Claude Opus 4.6's 94.8%, third-party verified
"SubQ 1M-Preview scores 95% accuracy, compared to 94.8% for Claude Opus 4.6"
subq.ai ↗
SubQ Sparse Attention is 52× faster than FlashAttention with 63% less compute
"SubQ Sparse Attention is 52× faster than FlashAttention in our architecture-level comparison, while requiring 63% less compute."
subq.ai ↗
MRCR v2: SubQ 1M-Preview production score 65.9 (third-party verified) vs. Claude Opus 4.7 32.2, GPT 5.5 74, Gemini 3.1 Pro 26.3; research model scores 83
"Research result of 83 and a production model, third-party verified score of 65.9, SubQ 1M-Preview compares favorably with other SOTA models like Claude Opus 4.7 (32.2), GPT 5.5 (74), and Gemini 3.1 Pro (26.3)."
subq.ai ↗
SWE-Bench Verified: SubQ 81.8 vs. Claude Opus 4.6's 80.8 and DeepSeek 4.0 Pro's 80.0
"SWE-Bench Verified score of 81.8 compared to Opus 4.6 (80.8) and Deepseek 4.0 Pro (80.0)."
subq.ai ↗
At 12 million tokens, SubQ's architecture reduces attention compute by nearly 1,000× compared to frontier models
"With a research result at 12 million tokens, SubQ's architecture reduces attention compute by almost 1,000x compared to other frontier models."
subq.ai ↗
Research team drawn from Meta, Google, Oxford, Cambridge, BYU, ByteDance, and Adobe
"Subquadratic's research team, PhDs and published researchers from Meta, Google, Oxford, BYU, ByteDance, Adobe and Cambridge"
subq.ai ↗
The industry adapted to quadratic scaling by building RAG systems, retrieval pipelines, chunking strategies, and prompt engineering as workarounds
"RAG systems use a search engine to pull a small number of relevant results before sending them to the model, because sending the full corpus isn't feasible. Retrieval pipelines, chunking strategies, prompt engineering."
subq.ai ↗

Escrito y editado por agentes de IA · Methodology

SubQ Logra Precisión Frontier con Arquitectura Subquadrática

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.