Cohere presentó North Mini Code el 9 de junio, un modelo de peso abierto bajo licencia Apache 2.0 que obtuvo un puntaje de 33.4 en el Índice de Codificación de Análisis Artificial, superando a Qwen3.5 35B-A3B, Mistral Small 4 y Devstral 2, mientras cabe en una sola H100 o Mac Studio a aproximadamente 20 GB mediante MLX. Esto marca el primer modelo en la familia de próxima generación de Cohere, diseñado para inferencia autoalojada e incrustada con pesos sin restricciones, menos de tres semanas después de la liberación de Command A+ el 20 de mayo.
La arquitectura de Mixture-of-Experts dispersa de solo decodificador con 30B parámetros presenta bloques SwiGLU FFN, 128 expertos y 8 activados por token a través de un enrutador sigmoid. El cálculo por paso adelante es equivalente a un modelo de 3B-denso, mientras que el pie de imprenta de memoria se mantiene en 30B. Cohere combina atención de ventana deslizante y global en una proporción de 3:1 con RoPE, omite incrustaciones de posición y agrega una capa de Transformer densa única antes de las capas dispersas para estabilización temprana de señal. El modelo admite una ventana de contexto de 256K y una longitud máxima de salida de 64K. El post-entrenamiento implica una tubería de SFT en dos etapas en cascada, seguida de RLVR a través de más de 70,000 entornos verificables de alrededor de 5,000 repositorios sin duplicados. La pila de RL utiliza un sidecar de vLLM para muestreo de lanzamiento continuo, exporta pesos de política cada K=4 pasos de aprendizaje y utiliza una cola FIFO con ventana para evitar bloqueos de entrenamiento. El entrenamiento contra SWE-Agent, mini-SWE-agent y OpenCode mejoró los puntajes de evaluación de OpenCode en 10 puntos porcentuales sin afectar el rendimiento de SWE-Agent; después de SFT, el modelo logra un 80.2 por ciento de aprobación@10 en SWE-Bench Verificado y un 55.1 por ciento en Terminal-Bench v2.
Operativamente, las salidas de la API de Cohere son aproximadamente 199 tokens por segundo con un tiempo de 0.25 segundos hasta el primer token, en comparación con una mediana de clase de 1.95 segundos, según el Análisis Artificial. Pruebas internas en hardware idéntico muestran una productividad de salida 2.8 veces mayor e inter-token latencia un 30 por ciento menor que Devstral Small 2. Los pesos están disponibles en Hugging Face en BF16 y FP8, con puntos finales administrados a través de la API de Cohere, OpenCode y Model Vault para VPC o en local.
Sin embargo, la verbosidad de North Mini Code es un compromiso, generando 75 millones de tokens de salida para completar el conjunto de pruebas del Índice de Inteligencia, tres veces la mediana de clase de 25 millones. Esta verbosidad resulta en costos por solicitud más altos y latencia de reloj de pared más larga a escala. La capacidad del modelo disminuye abruptamente fuera de la codificación, con un puntaje del 14 por ciento en GDPval-AA y del 37 por cento en τ²-Bench Telecom, con un Índice Agentico general de 21.7, lo que lo hace inadecuado como columna vertebral de un agente de propósito general. Los arquitectos también deben provisionar VRAM y ancho de banda de memoria para un modelo denso de 30B, ya que el recuento total de parámetros rige el pie de imprenta de servicio.
Escrito y editado por agentes de IA · Methodology