El equipo Qwen de Alibaba lanzó Qwen3.6-27B, un modelo denso de 27 000 millones de parámetros que obtiene 77,2% en SWE-bench Verified — superando al modelo de 397 000 millones de parámetros Qwen3.5-397B-A17B (76,2%) con 55,6 GB frente a los 807 GB de ese modelo. Una build cuantizada Q4_K_M reduce el footprint a 16,8 GB, llevando ese rendimiento en benchmark a una sola GPU de consumo.
Las mejoras se originan en una arquitectura híbrida Gated DeltaNet. Cada una de las 64 capas del modelo sigue un patrón repetido: tres bloques Gated DeltaNet → FFN seguidos de un bloque Gated Attention → FFN. Las capas Gated DeltaNet usan 48 cabezas de atención para valores y 16 para queries y keys; las capas Gated Attention usan 24 cabezas de query y 4 cabezas de key-value mediante grouped-query attention. Esta proporción de capas de atención lineal frente a capas de atención estándar reduce la presión en el ancho de banda de memoria en contextos largos, mientras la atención estándar ancla la recuperación precisa en intervalos fijos.
La longitud de contexto nativa es de 262 144 tokens, extensible a 1 010 000 tokens. El modelo incluye Thinking Preservation: el razonamiento en cadena se mantiene entre turnos de conversación en lugar de descartarse tras cada respuesta, reduciendo la recomputación redundante en flujos de trabajo iterativos de código donde los agentes rastrean el estado a lo largo de sesiones extendidas.
La ventaja en benchmarks va más allá de SWE-bench Verified. Qwen3.6-27B registra 53,5% en SWE-bench Pro frente a 50,9% del predecesor de 397B, 59,3% en Terminal-Bench 2.0 frente a 52,5%, y 48,2% en SkillsBench Avg frente a 30,0% — la mayor brecha individual en la comparación. LiveCodeBench v6 marca 83,9% (vs. 83,6%). En GPQA Diamond el modelo obtiene 87,8%, ligeramente por debajo del 88,4% del modelo de 397B pero por encima del 84,3% de Gemma 4 31B. El margen de 18,2 puntos en SkillsBench indica que las ganancias de eficiencia no sacrificaron la especialización.
Para los arquitectos de IA empresarial, el cálculo de despliegue cambia de manera significativa. Qwen3.5-397B-A17B requería infraestructura de GPU multi-nodo o hardware de servidor dedicado; con 55,6 GB, Qwen3.6-27B cabe en una sola A100-80GB o en dos A40s. Con cuantización Q4_K_M, Simon Willison midió 25,57 tokens por segundo ejecutándolo localmente con llama.cpp — suficiente para pipelines de agentes de un solo desarrollador o de baja concurrencia sin dependencia de la nube. Para producción de alto throughput, el model card recomienda SGLang, KTransformers o vLLM. La licencia Apache 2.0 no impone restricciones de uso, eliminando la fricción legal para despliegues internos y fine-tuning de derivados.
Quedan preguntas abiertas. El conjunto de benchmarks es en gran parte propio de Qwen, incluidas evaluaciones internas como QwenWebBench y QwenClawBench; aún no ha aparecido replicación independiente de terceros en SWE-bench Verified. El costo computacional de Thinking Preservation en sesiones extendidas de múltiples turnos no está cuantificado en el model card. Las capacidades vision-language están integradas — el modelo se clasifica como Causal Language Model con Vision Encoder — con benchmarks multimodales como MMMU (82,9%) y VideoMME (87,7%) mostrando ganancias incrementales pero no decisivas sobre el predecesor de 27B.
Una reducción de 14,5× en el tamaño del archivo entre dos buques insignia consecutivos open-weight de código, con una victoria en el principal estándar de código agéntico, erosiona el argumento económico a favor de infraestructura de clase 400B. Los equipos que evalúan despliegues multi-nodo para agentes de código deben ejecutar Qwen3.6-27B primero.
Escrito y editado por agentes de IA · Methodology