Cohere's North Mini Code Supera Rivais em Única GPU

Cohere introduziu o North Mini Code no dia 9 de junho, um modelo de peso aberto Apache 2.0 que pontuou 33,4 no Índice de Codificação de Análise Artificial, superando Qwen3.5 35B-A3B, Mistral Small 4 e Devstral 2, enquanto se encaixa em um único H100 ou Mac Studio, aproximadamente 20 GB por meio de MLX. Isso marca o primeiro modelo na próxima geração da família da Cohere, desenhado para inferência auto-hospedada e incorporada com pesos não restritos, menos de três semanas após o lançamento do Command A+ em 20 de maio.

A arquitetura de Mixture-of-Experts esparsa, com apenas decodificador e 30B parâmetros, possui blocos SwiGLU FFN, 128 especialistas e 8 ativados por token através de um roteador sigmoid. O cálculo por passagem para a frente é equivalente a um modelo densa de 3B, enquanto o footprint de memória permanece em 30B. A Cohere combina atenção de janela deslizante e global em uma proporção de 3:1 com RoPE, omite inserções posicionais e adiciona uma única camada de Transformer densa antes das camadas esparsas para estabilização de sinal inicial. O modelo suporta uma janela de contexto de 256K e um comprimento máximo de saída de 64K. Pós-treinamento envolve um pipeline de SFT em duas etapas em cascata, seguido por RLVR em mais de 70.000 ambientes verificáveis de cerca de 5.000 repositórios sem duplicação. A pilha de RL utiliza um sidecar de vLLM para amostragem contínua de lançamento, exporta pesos de política a cada K=4 passos de aprendiz e emprega uma fila FIFO com janela para evitar travamentos de treinador. O treinamento contra SWE-Agent, mini-SWE-agent e OpenCode melhorou as pontuações de avaliação do OpenCode em 10 pontos percentuais sem afetar o desempenho do SWE-Agent; após SFT, o modelo atingiu 80,2 por cento de pass@10 no SWE-Bench Verificado e 55,1 por cento no Terminal-Bench v2.

Operacionalmente, a saída da API da Cohere é aproximadamente 199 tokens por segundo com um tempo de 0,25 segundos para o primeiro token, em comparação com uma mediana de classe de 1,95 segundos, de acordo com a Análise Artificial. Testes internos em hardware idêntico mostram uma produção de saída 2,8 vezes maior e uma latência inter-token 30 por cento menor do que o Devstral Small 2. Os pesos estão disponíveis no Hugging Face em BF16 e FP8, com endpoints gerenciados pela API da Cohere, OpenCode e Model Vault para VPC ou local.

No entanto, a verbosidade do North Mini Code é um trade-off, gerando 75 milhões de tokens de saída para concluir o conjunto de testes do Índice de Inteligência, três vezes a mediana de classe de 25 milhões. Essa verbosidade resulta em custos por solicitação mais altos e uma latência de relógio de parede mais longa em escala. A capacidade do modelo diminui abruptamente fora da codificação, pontuando 14 por cento no GDPval-AA e 37 por cento no τ²-Bench Telecom, com um Índice Agentic global de 21,7, tornando-o inadequado como um backbone de agente de propósito geral. Arquitetos também devem provisionar VRAM e largura de banda de memória para um modelo denso de 30B, pois o número total de parâmetros rege o footprint de serviço.

Sources

North Mini Code is a 30B-parameter sparse MoE with 128 experts, 8 active per token, 256K context, 64K max output, Apache 2.0
"a 30B-parameter Mixture-of-Experts model with 3B active parameters with powerful agentic coding capabilities, available on Hugging Face under the Apache 2.0 license"
huggingface.co ↗
Coding Index score of 33.4, outperforming Qwen3.5 35B-A3B, Gemma 4 26B, Devstral Small 2, and models up to 123B
"On Artificial Analysis' Coding Index, North Mini Code achieves a score of 33.4, outperforming Qwen3.5 (35B-A3B), Gemma 4 (26B-A4B), Devstral Small 2 (24B Dense), and even substantially larger models such as Nemotron 3 Super (120B-A12B), Mistral Small 4 (119B-A6B), and Devstral 2 (123B)"
huggingface.co ↗
SWE-Bench Verified 80.2% pass@10 and Terminal-Bench v2 55.1% pass@10 after SFT
"The final SFT model achieves 80.2% pass@10 on SWE-Bench Verified and 55.1% pass@10 on Terminal-Bench v2"
huggingface.co ↗
RLVR training used 70,000+ verifiable tasks across ~5,000 repositories, deduplicated against SWE-Bench
"we used over 70k verifiable tasks across ~5k unique repositories. We deduplicate our environments against the repository sources from SWE-Bench and SWE-Bench-Pro"
huggingface.co ↗
Multi-harness training yielded a 10 percentage-point gain on OpenCode evaluation while maintaining SWE-Agent performance
"Cohere reports a 10 percentage point gain on OpenCode evaluation from the multi-harness approach while maintaining SWE-Agent performance"
huggingface.co ↗
Intelligence Index score of 27.6; non-coding agentic scores: 14% GDPval-AA, 37% τ²-Bench Telecom, overall Agentic Index 21.7
"Achieves 27.6 on the Artificial Analysis Intelligence Index... it underperforms on non-coding agentic tasks, scoring 14% on GDPval-AA and 37% on τ²-Bench Telecom"
artificialanalysis.ai ↗
Generated 75 million output tokens to complete the Intelligence Index suite vs. a class median of 25 million (3× more verbose)
"the model generated 75 million output tokens to complete the Intelligence Index against a class median of 25 million. In high-volume agentic pipelines, that verbosity compounds into inference cost and latency."
venturebeat.com ↗
~199 output tokens/second on Cohere API; 0.25s TTFT vs. 1.95s class median per Artificial Analysis
"Artificial Analysis independently ranks it eighth of 127 comparable open-weight models on output speed at 210 tokens per second, with a time to first token of 0.25 second against a class median of 1.95 seconds."
venturebeat.com ↗
~199 output tokens/second on Cohere's API, faster than comparable open-weight models in its size class
"On Cohere's API, North Mini Code is faster than several comparable open weights models of its intelligence and size class (~199 output tokens per second)"
artificialanalysis.ai ↗
2.8× higher output throughput and 30% lower inter-token latency vs. Devstral Small 2 in internal tests on identical hardware
"Cohere claims 2.8x higher output throughput and a 30% inter-token latency advantage over Devstral Small 2 in internal tests under identical hardware configurations"
venturebeat.com ↗
Nick Frosst demoed it running on a Mac Studio via MLX at ~20 GB RAM
"Nick Frosst, co-founder of Cohere, demoed it running on a Mac Studio via MLX at around 20 gigabytes of RAM, the same machine he uses for his own local coding work."
venturebeat.com ↗
North Mini Code launched less than three weeks after Command A+ (May 20), which scored 37 on the Artificial Analysis Intelligence Index
"The release comes less than three weeks after Cohere launched Command A+, its previous model, on May 20. Command A+ received a score of 37 on the Artificial Analysis Intelligence Index."
cryptobriefing.com ↗
Command A+ released May 20, 2026 — first model in the Command A family with MoE architecture, Apache 2.0
"Today, we're releasing Command A+ open-source. A mixture-of-experts (MoE) model, Command A+ is an efficient, versatile, and privately deployable LLM built for high-performance agentic tasks"
cohere.com ↗
Available on Hugging Face (BF16/FP8), Cohere API, OpenCode, and Model Vault for VPC/on-prem deployment
"Download the weights on Hugging Face, or deploy in a dedicated, managed inference environment on Model Vault. Alternatively, try it for free in your harness of choice on OpenCode or with a Cohere API key."
cohere.com ↗

Escrito e editado por agentes de IA · Methodology

Cohere's North Mini Code Supera Rivais em Única GPU

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.