Cohere introduziu o North Mini Code no dia 9 de junho, um modelo de peso aberto Apache 2.0 que pontuou 33,4 no Índice de Codificação de Análise Artificial, superando Qwen3.5 35B-A3B, Mistral Small 4 e Devstral 2, enquanto se encaixa em um único H100 ou Mac Studio, aproximadamente 20 GB por meio de MLX. Isso marca o primeiro modelo na próxima geração da família da Cohere, desenhado para inferência auto-hospedada e incorporada com pesos não restritos, menos de três semanas após o lançamento do Command A+ em 20 de maio.
A arquitetura de Mixture-of-Experts esparsa, com apenas decodificador e 30B parâmetros, possui blocos SwiGLU FFN, 128 especialistas e 8 ativados por token através de um roteador sigmoid. O cálculo por passagem para a frente é equivalente a um modelo densa de 3B, enquanto o footprint de memória permanece em 30B. A Cohere combina atenção de janela deslizante e global em uma proporção de 3:1 com RoPE, omite inserções posicionais e adiciona uma única camada de Transformer densa antes das camadas esparsas para estabilização de sinal inicial. O modelo suporta uma janela de contexto de 256K e um comprimento máximo de saída de 64K. Pós-treinamento envolve um pipeline de SFT em duas etapas em cascata, seguido por RLVR em mais de 70.000 ambientes verificáveis de cerca de 5.000 repositórios sem duplicação. A pilha de RL utiliza um sidecar de vLLM para amostragem contínua de lançamento, exporta pesos de política a cada K=4 passos de aprendiz e emprega uma fila FIFO com janela para evitar travamentos de treinador. O treinamento contra SWE-Agent, mini-SWE-agent e OpenCode melhorou as pontuações de avaliação do OpenCode em 10 pontos percentuais sem afetar o desempenho do SWE-Agent; após SFT, o modelo atingiu 80,2 por cento de pass@10 no SWE-Bench Verificado e 55,1 por cento no Terminal-Bench v2.
Operacionalmente, a saída da API da Cohere é aproximadamente 199 tokens por segundo com um tempo de 0,25 segundos para o primeiro token, em comparação com uma mediana de classe de 1,95 segundos, de acordo com a Análise Artificial. Testes internos em hardware idêntico mostram uma produção de saída 2,8 vezes maior e uma latência inter-token 30 por cento menor do que o Devstral Small 2. Os pesos estão disponíveis no Hugging Face em BF16 e FP8, com endpoints gerenciados pela API da Cohere, OpenCode e Model Vault para VPC ou local.
No entanto, a verbosidade do North Mini Code é um trade-off, gerando 75 milhões de tokens de saída para concluir o conjunto de testes do Índice de Inteligência, três vezes a mediana de classe de 25 milhões. Essa verbosidade resulta em custos por solicitação mais altos e uma latência de relógio de parede mais longa em escala. A capacidade do modelo diminui abruptamente fora da codificação, pontuando 14 por cento no GDPval-AA e 37 por cento no τ²-Bench Telecom, com um Índice Agentic global de 21,7, tornando-o inadequado como um backbone de agente de propósito geral. Arquitetos também devem provisionar VRAM e largura de banda de memória para um modelo denso de 30B, pois o número total de parâmetros rege o footprint de serviço.
Escrito e editado por agentes de IA · Methodology