Modelo de mezcla de profundidades de 30B de Mistral sigue sin confirmarse pero llenaría un vacío en la pila de código

Mistral no ha lanzado un modelo de código de mezcla de profundidades con 30B de parámetros, ni ha habido ningún anuncio, catálogo de API o repositorio de pesos que confirme su existencia. La especulación es notable ya que llenaría un hueco lógico en la pila de código de producción endurecido de Mistral, que incluye Codestral para autocompletar, Devstral 2 para agentes, Devstral Small 2 para inferencia local y el generalista Mistral Large 3.

La actual alineación es arquitectónicamente diversa. Codestral es un modelo denso de 22B optimizado para completar en el medio, con una ventana de contexto de 256K en su versión de API actual 25.XX, con un precio de $0.30 por millón de tokens de entrada y $0.90 por millón de tokens de salida en el punto final dedicado de Mistral. Logra un 95.3% de aprobación en las pruebas FIM y es rentable para llamadas por tecla. Devstral 2 es un transformador denso de 123B diseñado para codificación agente, con una puntuación del 72.2% en SWE-Bench Verificado, con precios de API en $0.40/$2.00 por millón de tokens. Devstral Small 2 es un modelo de 24B Apache 2.0 que opera en una sola RTX 4090 o una MacBook M-serie Pro/Max para trabajo aislado. Mistral Large 3 es un modelo de expertos de mezcla dispersa con 41B parámetros activos extraídos de un total de 675B, también Apache 2.0, entrenado en aproximadamente 3,000 H200 GPUs.

Un modelo hipotético de 30B de parámetros activos de mezcla de profundidades bridaría la brecha entre Codestral y Large 3, confiando en decisiones de enrutamiento por token en lugar de selección de experto disperso. A diferencia de MoE, que envía tokens a diferentes redes feed-forward, mezcla de profundidades enruta tokens a diferentes profundidades de capa, omitiendo capas posteriores cuando se alcanza un umbral de confianza intermedio. Este enfoque reduce el costo promedio de paso adelante por debajo del de un modelo denso de 30B mientras se mantiene la capacidad máxima para tokens complejos. Sin embargo, introduce complejidad operativa ya que el enrutamiento de profundidad dinámica interrumpe la batería estática, el tamaño de caché KV y la medición de rendimiento en pilas estándar de vLLM o Triton, ya que cada token en una batería puede salir en una capa diferente. Los ahorros de ancho de banda de memoria solo se realizan si el motor de inferencia puede manejar salidas tempranas sin rellenar toda la batería a una profundidad completa.

En ausencia de Mistral publicando pesos, un punto final o evaluaciones para tal modelo, la afirmación de 30B MoD sigue siendo especulativa. La familia existente ya ilustra los compromisos que enfrentan los arquitectos. Codestral sobresale en latencia y precio pero carece de la profundidad de razonamiento para refactorización de múltiples archivos. Devstral 2 maneja esto a aproximadamente 3-6× el costo de token dependiendo de la longitud de la salida. Devstral Small 2 ofrece inferencia sin conexión con precisión a escala de 24B. Ninguna opción de MoD confirmada aún proporciona costo de cómputo variable en calidad de modelo de código.

Adopta la estrategia de escalonamiento ahora, no el mecanismo de enrutamiento no confirmado: utiliza un punto final barato de 22B para autocompletar, enruta tareas de agente complejas a una API de 123B y mantiene un punto de control de 24B Apache 2.0 en hardware local para generación pre-commit o sin conexión. Si emerge un modelo MoD, la pregunta clave será si sus ahorros de cómputo dinámico compensan la sobrecarga de núcleos CUDA personalizados y ejecución de lotes desiguales.

Sources

Mistral's news page shows no mixture-of-depths code model announcement — only Mistral Medium 3.5 agent features as of April 2026
"Remote agents in Vibe. Powered by Mistral Medium 3.5."
mistral.ai ↗
Codestral is a 22B open-weight model trained on 80+ programming languages with fill-in-the-middle capability; original May 2024 launch carried a 32K context window
"With its larger context window of 32k (compared to 4k, 8k or 16k for competitors), Codestral outperforms all other models in RepoBench"
mistral.ai ↗
Codestral 25.XX series carries a 256K context window; 95.3% pass@1 on FIM benchmarks
"Context Window: 256k tokens (standard across 25.XX series)"
devradar-dev.github.io ↗
Devstral Small 2 (24B, Apache 2.0) runs on a single RTX 4090 or MacBook M-series Pro/Max for air-gapped work
"Runs on single consumer GPU (RTX 4090) or high-end MacBook"
devradar-dev.github.io ↗
Codestral (current 25.XX API version) priced at $0.30/M input, $0.90/M output tokens
"Mistral's cutting-edge language model for coding released end of July 2025. Codestral specializes in low-latency, high-frequency tasks such as fill-in-the-middle (FIM), code correction and test generation."
openrouter.ai ↗
Devstral 2 is a 123B-parameter dense transformer scoring 72.2% on SWE-Bench Verified at $0.40/$2.00 per million tokens
"Devstral 2 is a state-of-the-art open-source model by Mistral AI specializing in agentic coding. It is a 123B-parameter dense transformer model supporting a 256K context window."
openrouter.ai ↗
Mistral Large 3 is a sparse MoE with 41B active parameters out of 675B total, trained on ~3,000 H200 GPUs
"It is a sparse mixture-of-experts (MoE) model featuring 41 billion active parameters and a total of 675 billion parameters, trained from scratch on an exascale NVIDIA GPU cluster (about 3,000 H200 GPUs)"
intuitionlabs.ai ↗
Mixture-of-depths technique routes tokens to different layer depths, skipping later layers when confidence threshold is met; can be 50%+ faster during post-training sampling
"These models match baseline performance for equivalent FLOPS and wall-clock times to train, but require a fraction of the FLOPs per forward pass, and can be upwards of 50% faster to step during post-training sampling."
github.com ↗

Modelo de mezcla de profundidades de 30B de Mistral sigue sin confirmarse pero llenaría un vacío en la pila de código

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.