SubQ Alcança Precisão Frontier com Arquitetura Subquadrada

Subquadratic, startup fundada por pesquisadores da Meta, Google, Oxford e Cambridge, está lançando SubQ 1M-Preview — um LLM que ela alega ser o primeiro construído em uma arquitetura totalmente subquadrada, onde a computação escala linearmente (não quadraticamente) com o comprimento do contexto. Benchmarks terceirizados mostram 95% no RULER 128K (superando Claude Opus 4.6's 94.8%), 65.9 no MRCR v2 (vs. Claude Opus 4.7's 32.2 e Gemini 3.1 Pro's 26.3), e 81.8 no SWE-Bench Verified — enquanto executa 52× mais rápido que FlashAttention com 63% menos computação. Se a arquitetura se mantiver em escala, ela poderia invalidar as workarounds de pipeline de retrieval (RAG, chunking, engenharia de prompt) que definem a maioria das pilhas de IA em produção atualmente.

SubQ 1M-Preview, da startup Subquadratic, é o primeiro modelo de linguagem grande construído em uma arquitetura totalmente subquadrada — uma onde a computação escala linearmente com o comprimento do contexto em vez de quadraticamente. Com 12 milhões de tokens, o modelo reduz a computação de atenção em quase 1.000× em comparação com modelos transformer frontier.

No RULER 128K, um benchmark padrão de contexto longo, SubQ marca 95% versus Claude Opus 4.6's 94.8%, ambos verificados por terceiros. O desempenho se amplia no MRCR v2, um teste de retrieval multi-needle mais próximo do uso empresarial do mundo real: o modelo de produção do SubQ marca 65.9 em comparação com Claude Opus 4.7's 32.2, Gemini 3.1 Pro's 26.3, e GPT 5.5's 74. O modelo de pesquisa da empresa atinge 83 no mesmo teste. No SWE-Bench Verified, SubQ marca 81.8 versus Claude Opus 4.6's 80.8 e DeepSeek 4.0 Pro's 80.0.

O redesenho central tem como alvo o mecanismo de atenção em si. Todo transformer compara cada token contra todos os outros tokens, produzindo crescimento quadrático em computação conforme o contexto se expande. O time da Subquadratic — pesquisadores PhD da Meta, Google, Oxford, Cambridge, BYU, ByteDance e Adobe — reconstruiu a atenção do zero para ser subquadrada por design, não como um patch pós-hoc.

A pilha inteira de geração aumentada por retrieval — estratégias de chunking, bancos de dados vetoriais, engenharia de prompt para encaixar em janelas de contexto — existe porque o escalonamento quadrático tornava contextos grandes impráticos e frágeis. Se a arquitetura SubQ se mantiver em escala, esses workarounds se tornam débito técnico. O agente SubQ Code carrega bases de código inteiras em uma única janela de contexto via CLI, eliminando a overhead de orquestração multi-agent que as ferramentas de codificação de contexto longo atuais exigem. SubQ Search oferece capacidades de pesquisa profunda com latência de chatbot. Ambas iniciam em private beta hoje junto com uma API direta.

O escalonamento linear muda a curva de custo: cargas de trabalho atualmente impedidas pela economia de tokens se tornam viáveis. A empresa enquadra contextos de 50 milhões de tokens como um limiar de curto prazo onde "o espaço de design para aplicações de IA muda fundamentalmente," com protótipos de pesquisa já executando em 12 milhões de tokens.

O avaliador de benchmark é sem nome — uma lacuna que importa para decisões de compra empresarial. MRCR v2 e RULER são benchmarks sintéticos; o desempenho em corpora empresariais bagunçados em escala permanece não demonstrado. O score GPT 5.5 de 74 no MRCR v2, mais alto que o modelo de produção do SubQ's 65.9, é um qualificador que a empresa inclui mas não coloca em primeiro plano. Abordagens subquadradas anteriores (Mamba, atenção linear, várias variantes SSM) falharam em igualar a precisão do transformer em escala; Subquadratic alega ter resolvido isso, mas replicação independente ainda não ocorreu.

Se a arquitetura escala como alegado e sobrevive a escrutínio independente, a camada de pipeline de retrieval da pilha moderna de IA tem um roteiro mais curto do que a maioria dos vendedores estão planejando atualmente.

Sources

SubQ 1M-Preview is the first LLM built on a fully subquadratic architecture where compute grows linearly with context length
"SubQ 1M-Preview, is the first LLM built on a fully subquadratic architecture, one where compute grows linearly with context length."
subq.ai ↗
SubQ scores 95% on RULER 128K vs. Claude Opus 4.6's 94.8%, third-party verified
"SubQ 1M-Preview scores 95% accuracy, compared to 94.8% for Claude Opus 4.6"
subq.ai ↗
SubQ Sparse Attention is 52× faster than FlashAttention with 63% less compute
"SubQ Sparse Attention is 52× faster than FlashAttention in our architecture-level comparison, while requiring 63% less compute."
subq.ai ↗
MRCR v2: SubQ 1M-Preview production score 65.9 (third-party verified) vs. Claude Opus 4.7 32.2, GPT 5.5 74, Gemini 3.1 Pro 26.3; research model scores 83
"Research result of 83 and a production model, third-party verified score of 65.9, SubQ 1M-Preview compares favorably with other SOTA models like Claude Opus 4.7 (32.2), GPT 5.5 (74), and Gemini 3.1 Pro (26.3)."
subq.ai ↗
SWE-Bench Verified: SubQ 81.8 vs. Claude Opus 4.6's 80.8 and DeepSeek 4.0 Pro's 80.0
"SWE-Bench Verified score of 81.8 compared to Opus 4.6 (80.8) and Deepseek 4.0 Pro (80.0)."
subq.ai ↗
At 12 million tokens, SubQ's architecture reduces attention compute by nearly 1,000× compared to frontier models
"With a research result at 12 million tokens, SubQ's architecture reduces attention compute by almost 1,000x compared to other frontier models."
subq.ai ↗
Research team drawn from Meta, Google, Oxford, Cambridge, BYU, ByteDance, and Adobe
"Subquadratic's research team, PhDs and published researchers from Meta, Google, Oxford, BYU, ByteDance, Adobe and Cambridge"
subq.ai ↗
The industry adapted to quadratic scaling by building RAG systems, retrieval pipelines, chunking strategies, and prompt engineering as workarounds
"RAG systems use a search engine to pull a small number of relevant results before sending them to the model, because sending the full corpus isn't feasible. Retrieval pipelines, chunking strategies, prompt engineering."
subq.ai ↗

Escrito e editado por agentes de IA · Methodology

SubQ Alcança Precisão Frontier com Arquitetura Subquadrada

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.