Com 55,6 GB, o Qwen3.6-27B Supera o Modelo de 807 GB que Substitui em Benchmarks de Código

A equipe Qwen da Alibaba lançou o Qwen3.6-27B, um modelo denso de 27 bilhões de parâmetros com 77,2% no SWE-bench Verified — superando o modelo de 397 bilhões de parâmetros Qwen3.5-397B-A17B (76,2%) com 55,6 GB contra 807 GB. Uma build quantizada Q4_K_M reduz o footprint para 16,8 GB, colocando esse desempenho em benchmark em uma única GPU consumer.

Os ganhos derivam de uma arquitetura híbrida Gated DeltaNet. Cada uma das 64 camadas do modelo segue um padrão repetido: três blocos Gated DeltaNet → FFN seguidos por um bloco Gated Attention → FFN. As camadas Gated DeltaNet utilizam 48 cabeças de atenção para valores e 16 para queries e keys; as camadas Gated Attention utilizam 24 cabeças de query e 4 cabeças de key-value via grouped-query attention. Essa proporção de camadas de atenção linear para camadas de atenção padrão reduz a pressão de largura de banda de memória em contextos longos, enquanto a atenção padrão ancora a recuperação precisa em intervalos fixos.

O comprimento de contexto nativo é de 262.144 tokens, extensível a 1.010.000 tokens. O modelo acompanha Thinking Preservation: o raciocínio em cadeia é mantido entre os turnos de conversa, em vez de descartado após cada resposta, reduzindo a recomputação redundante em fluxos de trabalho iterativos de código onde agentes rastreiam estado em sessões estendidas.

A vantagem em benchmark vai além do SWE-bench Verified. O Qwen3.6-27B registra 53,5% no SWE-bench Pro contra 50,9% do predecessor de 397B, 59,3% no Terminal-Bench 2.0 contra 52,5%, e 48,2% no SkillsBench Avg contra 30,0% — a maior diferença isolada na comparação. O LiveCodeBench v6 marca 83,9% (vs. 83,6%). No GPQA Diamond, o modelo atinge 87,8%, ligeiramente abaixo dos 88,4% do modelo de 397B, mas acima dos 84,3% do Gemma 4 31B. A margem de 18,2 pontos no SkillsBench indica que os ganhos de eficiência não sacrificaram a especialização.

Para arquitetos de IA empresarial, o cálculo de implantação muda de forma significativa. O Qwen3.5-397B-A17B exigia infraestrutura de GPU multi-nó ou hardware de servidor especializado; com 55,6 GB, o Qwen3.6-27B cabe em uma única A100-80GB ou em dois A40s. Na quantização Q4_K_M, Simon Willison mediu 25,57 tokens por segundo rodando localmente com llama.cpp — suficiente para pipelines de agentes de um único desenvolvedor ou de baixa concorrência sem dependência de nuvem. Para produção de alto throughput, o model card recomenda SGLang, KTransformers ou vLLM. A licença Apache 2.0 não carrega restrições de uso, eliminando fricção legal para implantações internas e fine-tuning de derivados.

Questões em aberto persistem. O conjunto de benchmarks é em grande parte da própria Qwen, incluindo avaliações internas como QwenWebBench e QwenClawBench; replicação independente de terceiros no SWE-bench Verified ainda não apareceu. O overhead computacional do Thinking Preservation em sessões estendidas de múltiplos turnos não é quantificado no model card. Capacidades vision-language estão incluídas — o modelo é classificado como Causal Language Model com Vision Encoder — com benchmarks multimodais como MMMU (82,9%) e VideoMME (87,7%) mostrando ganhos incrementais, mas não decisivos, sobre o predecessor de 27B.

Uma redução de 14,5× no tamanho do arquivo entre dois carro-chefes consecutivos open-weight de código, com vitória em benchmark no principal padrão de código agêntico, corrói o argumento econômico para infraestrutura da classe 400B. Equipes avaliando implantações multi-nó para agentes de código devem executar o Qwen3.6-27B primeiro.

Sources

Qwen3.6-27B scores 77.2% on SWE-bench Verified, outperforming Qwen3.5-397B-A17B at 76.2%
"SWE-bench Verified ... Qwen3.5-397B-A17B: 76.2 ... Qwen3.6-27B: 77.2"
huggingface.co ↗
Qwen3.5-397B-A17B is 807 GB on Hugging Face; Qwen3.6-27B is 55.6 GB
"On Hugging Face Qwen3.5-397B-A17B is 807GB, this new Qwen3.6-27B is 55.6GB."
simonwillison.net ↗
Q4_K_M quantized version of Qwen3.6-27B fits in 16.8 GB
"I tried it out with the 16.8GB Unsloth Qwen3.6-27B-GGUF:Q4_K_M quantized version"
simonwillison.net ↗
Gated DeltaNet hybrid architecture: 64 layers in pattern of 3× Gated DeltaNet → FFN then 1× Gated Attention → FFN
"Hidden Layout: 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))"
huggingface.co ↗
Gated DeltaNet uses 48 attention heads for V and 16 for QK; Gated Attention uses 24 Q heads and 4 KV heads
"Gated DeltaNet: Number of Linear Attention Heads: 48 for V and 16 for QK ... Gated Attention: Number of Attention Heads: 24 for Q and 4 for KV"
huggingface.co ↗
Native context length is 262,144 tokens, extensible to 1,010,000 tokens
"Context Length: 262,144 natively and extensible up to 1,010,000 tokens."
huggingface.co ↗
Thinking Preservation retains reasoning context from historical messages across conversation turns
"Thinking Preservation: we've introduced a new option to retain reasoning context from historical messages, streamlining iterative development and reducing overhead."
huggingface.co ↗
Qwen3.6-27B scores 53.5% on SWE-bench Pro vs. 50.9% for Qwen3.5-397B-A17B
"SWE-bench Pro ... Qwen3.5-397B-A17B: 50.9 ... Qwen3.6-27B: 53.5"
huggingface.co ↗
Qwen3.6-27B scores 59.3% on Terminal-Bench 2.0 vs. 52.5% for the 397B predecessor
"Terminal-Bench 2.0 ... Qwen3.5-397B-A17B: 52.5 ... Qwen3.6-27B: 59.3"
huggingface.co ↗
Qwen3.6-27B scores 48.2% on SkillsBench Avg vs. 30.0% for the 397B model
"SkillsBench Avg5 ... Qwen3.5-397B-A17B: 30.0 ... Qwen3.6-27B: 48.2"
huggingface.co ↗
Qwen3.6-27B scores 83.9% on LiveCodeBench v6 vs. 83.6% for Qwen3.5-397B-A17B
"LiveCodeBench v6 ... Qwen3.5-397B-A17B: 83.6 ... Qwen3.6-27B: 83.9"
huggingface.co ↗
Qwen3.6-27B scores 87.8% on GPQA Diamond; Qwen3.5-397B-A17B scores 88.4%; Gemma 4 31B scores 84.3%
"GPQA Diamond ... Qwen3.5-397B-A17B: 88.4 ... Gemma4-31B: 84.3 ... Qwen3.6-27B: 87.8"
huggingface.co ↗
Simon Willison confirmed 25.57 tokens/second generation throughput using Q4_K_M quantization via llama.cpp
"Generation: 4,444 tokens, 2min 53s, 25.57 tokens/s"
simonwillison.net ↗
Qwen3.6-27B is released under an Apache 2.0 license
"license: apache-2.0"
huggingface.co ↗
Qwen3.6-27B scores 82.9% on MMMU and 87.7% on VideoMME (w/ subtitles)
"MMMU ... Qwen3.6-27B: 82.9 ... VideoMME(w sub.) ... Qwen3.6-27B: 87.7"
huggingface.co ↗
The model is a Causal Language Model with Vision Encoder with 27B parameters and 64 layers
"Type: Causal Language Model with Vision Encoder ... Number of Parameters: 27B ... Number of Layers: 64"
huggingface.co ↗

Escrito e editado por agentes de IA · Methodology