Cohere's North Mini Code supera a competidores en una sola GPU

Cohere presentó North Mini Code el 9 de junio, un modelo de peso abierto bajo licencia Apache 2.0 que obtuvo un puntaje de 33.4 en el Índice de Codificación de Análisis Artificial, superando a Qwen3.5 35B-A3B, Mistral Small 4 y Devstral 2, mientras cabe en una sola H100 o Mac Studio a aproximadamente 20 GB mediante MLX. Esto marca el primer modelo en la familia de próxima generación de Cohere, diseñado para inferencia autoalojada e incrustada con pesos sin restricciones, menos de tres semanas después de la liberación de Command A+ el 20 de mayo.

La arquitectura de Mixture-of-Experts dispersa de solo decodificador con 30B parámetros presenta bloques SwiGLU FFN, 128 expertos y 8 activados por token a través de un enrutador sigmoid. El cálculo por paso adelante es equivalente a un modelo de 3B-denso, mientras que el pie de imprenta de memoria se mantiene en 30B. Cohere combina atención de ventana deslizante y global en una proporción de 3:1 con RoPE, omite incrustaciones de posición y agrega una capa de Transformer densa única antes de las capas dispersas para estabilización temprana de señal. El modelo admite una ventana de contexto de 256K y una longitud máxima de salida de 64K. El post-entrenamiento implica una tubería de SFT en dos etapas en cascada, seguida de RLVR a través de más de 70,000 entornos verificables de alrededor de 5,000 repositorios sin duplicados. La pila de RL utiliza un sidecar de vLLM para muestreo de lanzamiento continuo, exporta pesos de política cada K=4 pasos de aprendizaje y utiliza una cola FIFO con ventana para evitar bloqueos de entrenamiento. El entrenamiento contra SWE-Agent, mini-SWE-agent y OpenCode mejoró los puntajes de evaluación de OpenCode en 10 puntos porcentuales sin afectar el rendimiento de SWE-Agent; después de SFT, el modelo logra un 80.2 por ciento de aprobación@10 en SWE-Bench Verificado y un 55.1 por ciento en Terminal-Bench v2.

Operativamente, las salidas de la API de Cohere son aproximadamente 199 tokens por segundo con un tiempo de 0.25 segundos hasta el primer token, en comparación con una mediana de clase de 1.95 segundos, según el Análisis Artificial. Pruebas internas en hardware idéntico muestran una productividad de salida 2.8 veces mayor e inter-token latencia un 30 por ciento menor que Devstral Small 2. Los pesos están disponibles en Hugging Face en BF16 y FP8, con puntos finales administrados a través de la API de Cohere, OpenCode y Model Vault para VPC o en local.

Sin embargo, la verbosidad de North Mini Code es un compromiso, generando 75 millones de tokens de salida para completar el conjunto de pruebas del Índice de Inteligencia, tres veces la mediana de clase de 25 millones. Esta verbosidad resulta en costos por solicitud más altos y latencia de reloj de pared más larga a escala. La capacidad del modelo disminuye abruptamente fuera de la codificación, con un puntaje del 14 por ciento en GDPval-AA y del 37 por cento en τ²-Bench Telecom, con un Índice Agentico general de 21.7, lo que lo hace inadecuado como columna vertebral de un agente de propósito general. Los arquitectos también deben provisionar VRAM y ancho de banda de memoria para un modelo denso de 30B, ya que el recuento total de parámetros rige el pie de imprenta de servicio.

Sources

North Mini Code is a 30B-parameter sparse MoE with 128 experts, 8 active per token, 256K context, 64K max output, Apache 2.0
"a 30B-parameter Mixture-of-Experts model with 3B active parameters with powerful agentic coding capabilities, available on Hugging Face under the Apache 2.0 license"
huggingface.co ↗
Coding Index score of 33.4, outperforming Qwen3.5 35B-A3B, Gemma 4 26B, Devstral Small 2, and models up to 123B
"On Artificial Analysis' Coding Index, North Mini Code achieves a score of 33.4, outperforming Qwen3.5 (35B-A3B), Gemma 4 (26B-A4B), Devstral Small 2 (24B Dense), and even substantially larger models such as Nemotron 3 Super (120B-A12B), Mistral Small 4 (119B-A6B), and Devstral 2 (123B)"
huggingface.co ↗
SWE-Bench Verified 80.2% pass@10 and Terminal-Bench v2 55.1% pass@10 after SFT
"The final SFT model achieves 80.2% pass@10 on SWE-Bench Verified and 55.1% pass@10 on Terminal-Bench v2"
huggingface.co ↗
RLVR training used 70,000+ verifiable tasks across ~5,000 repositories, deduplicated against SWE-Bench
"we used over 70k verifiable tasks across ~5k unique repositories. We deduplicate our environments against the repository sources from SWE-Bench and SWE-Bench-Pro"
huggingface.co ↗
Multi-harness training yielded a 10 percentage-point gain on OpenCode evaluation while maintaining SWE-Agent performance
"Cohere reports a 10 percentage point gain on OpenCode evaluation from the multi-harness approach while maintaining SWE-Agent performance"
huggingface.co ↗
Intelligence Index score of 27.6; non-coding agentic scores: 14% GDPval-AA, 37% τ²-Bench Telecom, overall Agentic Index 21.7
"Achieves 27.6 on the Artificial Analysis Intelligence Index... it underperforms on non-coding agentic tasks, scoring 14% on GDPval-AA and 37% on τ²-Bench Telecom"
artificialanalysis.ai ↗
Generated 75 million output tokens to complete the Intelligence Index suite vs. a class median of 25 million (3× more verbose)
"the model generated 75 million output tokens to complete the Intelligence Index against a class median of 25 million. In high-volume agentic pipelines, that verbosity compounds into inference cost and latency."
venturebeat.com ↗
~199 output tokens/second on Cohere API; 0.25s TTFT vs. 1.95s class median per Artificial Analysis
"Artificial Analysis independently ranks it eighth of 127 comparable open-weight models on output speed at 210 tokens per second, with a time to first token of 0.25 second against a class median of 1.95 seconds."
venturebeat.com ↗
~199 output tokens/second on Cohere's API, faster than comparable open-weight models in its size class
"On Cohere's API, North Mini Code is faster than several comparable open weights models of its intelligence and size class (~199 output tokens per second)"
artificialanalysis.ai ↗
2.8× higher output throughput and 30% lower inter-token latency vs. Devstral Small 2 in internal tests on identical hardware
"Cohere claims 2.8x higher output throughput and a 30% inter-token latency advantage over Devstral Small 2 in internal tests under identical hardware configurations"
venturebeat.com ↗
Nick Frosst demoed it running on a Mac Studio via MLX at ~20 GB RAM
"Nick Frosst, co-founder of Cohere, demoed it running on a Mac Studio via MLX at around 20 gigabytes of RAM, the same machine he uses for his own local coding work."
venturebeat.com ↗
North Mini Code launched less than three weeks after Command A+ (May 20), which scored 37 on the Artificial Analysis Intelligence Index
"The release comes less than three weeks after Cohere launched Command A+, its previous model, on May 20. Command A+ received a score of 37 on the Artificial Analysis Intelligence Index."
cryptobriefing.com ↗
Command A+ released May 20, 2026 — first model in the Command A family with MoE architecture, Apache 2.0
"Today, we're releasing Command A+ open-source. A mixture-of-experts (MoE) model, Command A+ is an efficient, versatile, and privately deployable LLM built for high-performance agentic tasks"
cohere.com ↗
Available on Hugging Face (BF16/FP8), Cohere API, OpenCode, and Model Vault for VPC/on-prem deployment
"Download the weights on Hugging Face, or deploy in a dedicated, managed inference environment on Model Vault. Alternatively, try it for free in your harness of choice on OpenCode or with a Cohere API key."
cohere.com ↗

Escrito y editado por agentes de IA · Methodology

Cohere's North Mini Code supera a competidores en una sola GPU

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.