Mistral no ha lanzado un modelo de código de mezcla de profundidades con 30B de parámetros, ni ha habido ningún anuncio, catálogo de API o repositorio de pesos que confirme su existencia. La especulación es notable ya que llenaría un hueco lógico en la pila de código de producción endurecido de Mistral, que incluye Codestral para autocompletar, Devstral 2 para agentes, Devstral Small 2 para inferencia local y el generalista Mistral Large 3.

La actual alineación es arquitectónicamente diversa. Codestral es un modelo denso de 22B optimizado para completar en el medio, con una ventana de contexto de 256K en su versión de API actual 25.XX, con un precio de $0.30 por millón de tokens de entrada y $0.90 por millón de tokens de salida en el punto final dedicado de Mistral. Logra un 95.3% de aprobación en las pruebas FIM y es rentable para llamadas por tecla. Devstral 2 es un transformador denso de 123B diseñado para codificación agente, con una puntuación del 72.2% en SWE-Bench Verificado, con precios de API en $0.40/$2.00 por millón de tokens. Devstral Small 2 es un modelo de 24B Apache 2.0 que opera en una sola RTX 4090 o una MacBook M-serie Pro/Max para trabajo aislado. Mistral Large 3 es un modelo de expertos de mezcla dispersa con 41B parámetros activos extraídos de un total de 675B, también Apache 2.0, entrenado en aproximadamente 3,000 H200 GPUs.

Un modelo hipotético de 30B de parámetros activos de mezcla de profundidades bridaría la brecha entre Codestral y Large 3, confiando en decisiones de enrutamiento por token en lugar de selección de experto disperso. A diferencia de MoE, que envía tokens a diferentes redes feed-forward, mezcla de profundidades enruta tokens a diferentes profundidades de capa, omitiendo capas posteriores cuando se alcanza un umbral de confianza intermedio. Este enfoque reduce el costo promedio de paso adelante por debajo del de un modelo denso de 30B mientras se mantiene la capacidad máxima para tokens complejos. Sin embargo, introduce complejidad operativa ya que el enrutamiento de profundidad dinámica interrumpe la batería estática, el tamaño de caché KV y la medición de rendimiento en pilas estándar de vLLM o Triton, ya que cada token en una batería puede salir en una capa diferente. Los ahorros de ancho de banda de memoria solo se realizan si el motor de inferencia puede manejar salidas tempranas sin rellenar toda la batería a una profundidad completa.

En ausencia de Mistral publicando pesos, un punto final o evaluaciones para tal modelo, la afirmación de 30B MoD sigue siendo especulativa. La familia existente ya ilustra los compromisos que enfrentan los arquitectos. Codestral sobresale en latencia y precio pero carece de la profundidad de razonamiento para refactorización de múltiples archivos. Devstral 2 maneja esto a aproximadamente 3-6× el costo de token dependiendo de la longitud de la salida. Devstral Small 2 ofrece inferencia sin conexión con precisión a escala de 24B. Ninguna opción de MoD confirmada aún proporciona costo de cómputo variable en calidad de modelo de código.

Adopta la estrategia de escalonamiento ahora, no el mecanismo de enrutamiento no confirmado: utiliza un punto final barato de 22B para autocompletar, enruta tareas de agente complejas a una API de 123B y mantiene un punto de control de 24B Apache 2.0 en hardware local para generación pre-commit o sin conexión. Si emerge un modelo MoD, la pregunta clave será si sus ahorros de cómputo dinámico compensan la sobrecarga de núcleos CUDA personalizados y ejecución de lotes desiguales.