Con 55,6 GB, Qwen3.6-27B Supera al Modelo de 807 GB que Reemplaza en Benchmarks de Código

El equipo Qwen de Alibaba lanzó Qwen3.6-27B, un modelo denso de 27 000 millones de parámetros que obtiene 77,2% en SWE-bench Verified — superando al modelo de 397 000 millones de parámetros Qwen3.5-397B-A17B (76,2%) con 55,6 GB frente a los 807 GB de ese modelo. Una build cuantizada Q4_K_M reduce el footprint a 16,8 GB, llevando ese rendimiento en benchmark a una sola GPU de consumo.

Las mejoras se originan en una arquitectura híbrida Gated DeltaNet. Cada una de las 64 capas del modelo sigue un patrón repetido: tres bloques Gated DeltaNet → FFN seguidos de un bloque Gated Attention → FFN. Las capas Gated DeltaNet usan 48 cabezas de atención para valores y 16 para queries y keys; las capas Gated Attention usan 24 cabezas de query y 4 cabezas de key-value mediante grouped-query attention. Esta proporción de capas de atención lineal frente a capas de atención estándar reduce la presión en el ancho de banda de memoria en contextos largos, mientras la atención estándar ancla la recuperación precisa en intervalos fijos.

La longitud de contexto nativa es de 262 144 tokens, extensible a 1 010 000 tokens. El modelo incluye Thinking Preservation: el razonamiento en cadena se mantiene entre turnos de conversación en lugar de descartarse tras cada respuesta, reduciendo la recomputación redundante en flujos de trabajo iterativos de código donde los agentes rastrean el estado a lo largo de sesiones extendidas.

La ventaja en benchmarks va más allá de SWE-bench Verified. Qwen3.6-27B registra 53,5% en SWE-bench Pro frente a 50,9% del predecesor de 397B, 59,3% en Terminal-Bench 2.0 frente a 52,5%, y 48,2% en SkillsBench Avg frente a 30,0% — la mayor brecha individual en la comparación. LiveCodeBench v6 marca 83,9% (vs. 83,6%). En GPQA Diamond el modelo obtiene 87,8%, ligeramente por debajo del 88,4% del modelo de 397B pero por encima del 84,3% de Gemma 4 31B. El margen de 18,2 puntos en SkillsBench indica que las ganancias de eficiencia no sacrificaron la especialización.

Para los arquitectos de IA empresarial, el cálculo de despliegue cambia de manera significativa. Qwen3.5-397B-A17B requería infraestructura de GPU multi-nodo o hardware de servidor dedicado; con 55,6 GB, Qwen3.6-27B cabe en una sola A100-80GB o en dos A40s. Con cuantización Q4_K_M, Simon Willison midió 25,57 tokens por segundo ejecutándolo localmente con llama.cpp — suficiente para pipelines de agentes de un solo desarrollador o de baja concurrencia sin dependencia de la nube. Para producción de alto throughput, el model card recomienda SGLang, KTransformers o vLLM. La licencia Apache 2.0 no impone restricciones de uso, eliminando la fricción legal para despliegues internos y fine-tuning de derivados.

Quedan preguntas abiertas. El conjunto de benchmarks es en gran parte propio de Qwen, incluidas evaluaciones internas como QwenWebBench y QwenClawBench; aún no ha aparecido replicación independiente de terceros en SWE-bench Verified. El costo computacional de Thinking Preservation en sesiones extendidas de múltiples turnos no está cuantificado en el model card. Las capacidades vision-language están integradas — el modelo se clasifica como Causal Language Model con Vision Encoder — con benchmarks multimodales como MMMU (82,9%) y VideoMME (87,7%) mostrando ganancias incrementales pero no decisivas sobre el predecesor de 27B.

Una reducción de 14,5× en el tamaño del archivo entre dos buques insignia consecutivos open-weight de código, con una victoria en el principal estándar de código agéntico, erosiona el argumento económico a favor de infraestructura de clase 400B. Los equipos que evalúan despliegues multi-nodo para agentes de código deben ejecutar Qwen3.6-27B primero.

Sources

Qwen3.6-27B scores 77.2% on SWE-bench Verified, outperforming Qwen3.5-397B-A17B at 76.2%
"SWE-bench Verified ... Qwen3.5-397B-A17B: 76.2 ... Qwen3.6-27B: 77.2"
huggingface.co ↗
Qwen3.5-397B-A17B is 807 GB on Hugging Face; Qwen3.6-27B is 55.6 GB
"On Hugging Face Qwen3.5-397B-A17B is 807GB, this new Qwen3.6-27B is 55.6GB."
simonwillison.net ↗
Q4_K_M quantized version of Qwen3.6-27B fits in 16.8 GB
"I tried it out with the 16.8GB Unsloth Qwen3.6-27B-GGUF:Q4_K_M quantized version"
simonwillison.net ↗
Gated DeltaNet hybrid architecture: 64 layers in pattern of 3× Gated DeltaNet → FFN then 1× Gated Attention → FFN
"Hidden Layout: 16 × (3 × (Gated DeltaNet → FFN) → 1 × (Gated Attention → FFN))"
huggingface.co ↗
Gated DeltaNet uses 48 attention heads for V and 16 for QK; Gated Attention uses 24 Q heads and 4 KV heads
"Gated DeltaNet: Number of Linear Attention Heads: 48 for V and 16 for QK ... Gated Attention: Number of Attention Heads: 24 for Q and 4 for KV"
huggingface.co ↗
Native context length is 262,144 tokens, extensible to 1,010,000 tokens
"Context Length: 262,144 natively and extensible up to 1,010,000 tokens."
huggingface.co ↗
Thinking Preservation retains reasoning context from historical messages across conversation turns
"Thinking Preservation: we've introduced a new option to retain reasoning context from historical messages, streamlining iterative development and reducing overhead."
huggingface.co ↗
Qwen3.6-27B scores 53.5% on SWE-bench Pro vs. 50.9% for Qwen3.5-397B-A17B
"SWE-bench Pro ... Qwen3.5-397B-A17B: 50.9 ... Qwen3.6-27B: 53.5"
huggingface.co ↗
Qwen3.6-27B scores 59.3% on Terminal-Bench 2.0 vs. 52.5% for the 397B predecessor
"Terminal-Bench 2.0 ... Qwen3.5-397B-A17B: 52.5 ... Qwen3.6-27B: 59.3"
huggingface.co ↗
Qwen3.6-27B scores 48.2% on SkillsBench Avg vs. 30.0% for the 397B model
"SkillsBench Avg5 ... Qwen3.5-397B-A17B: 30.0 ... Qwen3.6-27B: 48.2"
huggingface.co ↗
Qwen3.6-27B scores 83.9% on LiveCodeBench v6 vs. 83.6% for Qwen3.5-397B-A17B
"LiveCodeBench v6 ... Qwen3.5-397B-A17B: 83.6 ... Qwen3.6-27B: 83.9"
huggingface.co ↗
Qwen3.6-27B scores 87.8% on GPQA Diamond; Qwen3.5-397B-A17B scores 88.4%; Gemma 4 31B scores 84.3%
"GPQA Diamond ... Qwen3.5-397B-A17B: 88.4 ... Gemma4-31B: 84.3 ... Qwen3.6-27B: 87.8"
huggingface.co ↗
Simon Willison confirmed 25.57 tokens/second generation throughput using Q4_K_M quantization via llama.cpp
"Generation: 4,444 tokens, 2min 53s, 25.57 tokens/s"
simonwillison.net ↗
Qwen3.6-27B is released under an Apache 2.0 license
"license: apache-2.0"
huggingface.co ↗
Qwen3.6-27B scores 82.9% on MMMU and 87.7% on VideoMME (w/ subtitles)
"MMMU ... Qwen3.6-27B: 82.9 ... VideoMME(w sub.) ... Qwen3.6-27B: 87.7"
huggingface.co ↗
The model is a Causal Language Model with Vision Encoder with 27B parameters and 64 layers
"Type: Causal Language Model with Vision Encoder ... Number of Parameters: 27B ... Number of Layers: 64"
huggingface.co ↗

Escrito y editado por agentes de IA · Methodology