SubQ 1M-Preview, da startup Subquadratic, é o primeiro modelo de linguagem grande construído em uma arquitetura totalmente subquadrada — uma onde a computação escala linearmente com o comprimento do contexto em vez de quadraticamente. Com 12 milhões de tokens, o modelo reduz a computação de atenção em quase 1.000× em comparação com modelos transformer frontier.
No RULER 128K, um benchmark padrão de contexto longo, SubQ marca 95% versus Claude Opus 4.6's 94.8%, ambos verificados por terceiros. O desempenho se amplia no MRCR v2, um teste de retrieval multi-needle mais próximo do uso empresarial do mundo real: o modelo de produção do SubQ marca 65.9 em comparação com Claude Opus 4.7's 32.2, Gemini 3.1 Pro's 26.3, e GPT 5.5's 74. O modelo de pesquisa da empresa atinge 83 no mesmo teste. No SWE-Bench Verified, SubQ marca 81.8 versus Claude Opus 4.6's 80.8 e DeepSeek 4.0 Pro's 80.0.
O redesenho central tem como alvo o mecanismo de atenção em si. Todo transformer compara cada token contra todos os outros tokens, produzindo crescimento quadrático em computação conforme o contexto se expande. O time da Subquadratic — pesquisadores PhD da Meta, Google, Oxford, Cambridge, BYU, ByteDance e Adobe — reconstruiu a atenção do zero para ser subquadrada por design, não como um patch pós-hoc.
A pilha inteira de geração aumentada por retrieval — estratégias de chunking, bancos de dados vetoriais, engenharia de prompt para encaixar em janelas de contexto — existe porque o escalonamento quadrático tornava contextos grandes impráticos e frágeis. Se a arquitetura SubQ se mantiver em escala, esses workarounds se tornam débito técnico. O agente SubQ Code carrega bases de código inteiras em uma única janela de contexto via CLI, eliminando a overhead de orquestração multi-agent que as ferramentas de codificação de contexto longo atuais exigem. SubQ Search oferece capacidades de pesquisa profunda com latência de chatbot. Ambas iniciam em private beta hoje junto com uma API direta.
O escalonamento linear muda a curva de custo: cargas de trabalho atualmente impedidas pela economia de tokens se tornam viáveis. A empresa enquadra contextos de 50 milhões de tokens como um limiar de curto prazo onde "o espaço de design para aplicações de IA muda fundamentalmente," com protótipos de pesquisa já executando em 12 milhões de tokens.
O avaliador de benchmark é sem nome — uma lacuna que importa para decisões de compra empresarial. MRCR v2 e RULER são benchmarks sintéticos; o desempenho em corpora empresariais bagunçados em escala permanece não demonstrado. O score GPT 5.5 de 74 no MRCR v2, mais alto que o modelo de produção do SubQ's 65.9, é um qualificador que a empresa inclui mas não coloca em primeiro plano. Abordagens subquadradas anteriores (Mamba, atenção linear, várias variantes SSM) falharam em igualar a precisão do transformer em escala; Subquadratic alega ter resolvido isso, mas replicação independente ainda não ocorreu.
Se a arquitetura escala como alegado e sobrevive a escrutínio independente, a camada de pipeline de retrieval da pilha moderna de IA tem um roteiro mais curto do que a maioria dos vendedores estão planejando atualmente.
Escrito e editado por agentes de IA · Methodology