Modelo de Mistura de Profundidades de 30B do Mistral permanece não confirmado, mas preencheria uma lacuna na pilha de código

O Mistral não liberou um modelo de código de mistura de profundidades com 30B de parâmetros, e não houve nenhum anúncio, catálogo de APIs ou repositório de pesos para confirmar sua existência. A especulação é notável pois preencheria uma lacuna lógica na pilha de código consolidada da produção do Mistral, que inclui o Codestral para autocompletar, o Devstral 2 para agentes, o Devstral Small 2 para inferência local e o Mistral Large 3 generalista.

A atual linha-up é diversa arquiteturalmente. O Codestral é um modelo denso de 22B otimizado para preencher no meio, com uma janela de contexto de 256K em sua versão de API 25.XX atual, com preço de $0,30 por milhão de tokens de entrada e $0,90 por milhão de tokens de saída no endpoint dedicado do Mistral. Ele alcança 95,3% de pass@1 em benchmarks FIM e é econômico para chamadas por tecla. O Devstral 2 é um transformador denso de 123B projetado para codificação agente, com pontuação de 72,2% no SWE-Bench Verificado, com preços de API de $0,40/$2,00 por milhão de tokens. O Devstral Small 2 é um modelo de 24B Apache 2.0 que opera em um único RTX 4090 ou um MacBook M-series Pro/Max para trabalho isolado. O Mistral Large 3 é um modelo de mistura de especialistas esparsos com 41B parâmetros ativos retirados de 675B no total, também Apache 2.0, treinado em aproximadamente 3.000 GPUs H200.

Um modelo hipotético de mistura de profundidades com 30B de parâmetros ativos preencheria a lacuna entre o Codestral e o Large 3, confiando em decisões de roteamento por token em vez da seleção de especialistas esparsos. Ao contrário do MoE, que encaminha tokens para diferentes redes feed-forward, a mistura de profundidades encaminha tokens para diferentes profundidades de camada, pulando camadas posteriores quando um limite de confiança intermediário é atingido. Este método reduz o custo médio da passagem para frente abaixo do de um modelo denso de 30B, enquanto mantém a capacidade de pico para tokens complexos. No entanto, introduz complexidade operacional, pois o roteamento de profundidade dinâmica interrompe o batching estático, o dimensionamento do cache KV e o benchmark de throughput em pilhas padrão de vLLM ou Triton, pois cada token em um lote pode sair em uma camada diferente. Os ganhos de largura de banda de memória só são realizados se o mecanismo de inferência puder lidar com saídas antecipadas sem preencher o lote inteiro até a profundidade total.

Na ausência de publicação de pesos, endpoint ou avaliações para tal modelo pelo Mistral, a alegação de 30B de MoD permanece especulativa. A família existente já ilustra os trade-offs que os arquitetos enfrentam. O Codestral excele em latência e preço, mas carece da profundidade de raciocínio para refatoração de múltiplos arquivos. O Devstral 2 gerencia isso com um custo de token de aproximadamente 3-6× dependendo do comprimento da saída. O Devstral Small 2 oferece inferência offline com precisão de escala 24B. Nenhuma opção de MoD confirmada ainda fornece custo computacional variável na qualidade do modelo de código.

Adote a estratégia de escalonamento agora, não o mecanismo de roteamento não confirmado: use um endpoint barato de 22B para autocompletar, encaminhe tarefas complexas de agentes para uma API de 123B e mantenha um ponto de verificação de 24B Apache 2.0 em hardware local para geração pré-commit ou offline. Se um modelo de MoD surgir, a pergunta chave será se seus economias de computação dinâmicas compensam o overhead de kernels CUDA personalizados e execução de lotes desiguais.

Sources

Mistral's news page shows no mixture-of-depths code model announcement — only Mistral Medium 3.5 agent features as of April 2026
"Remote agents in Vibe. Powered by Mistral Medium 3.5."
mistral.ai ↗
Codestral is a 22B open-weight model trained on 80+ programming languages with fill-in-the-middle capability; original May 2024 launch carried a 32K context window
"With its larger context window of 32k (compared to 4k, 8k or 16k for competitors), Codestral outperforms all other models in RepoBench"
mistral.ai ↗
Codestral 25.XX series carries a 256K context window; 95.3% pass@1 on FIM benchmarks
"Context Window: 256k tokens (standard across 25.XX series)"
devradar-dev.github.io ↗
Devstral Small 2 (24B, Apache 2.0) runs on a single RTX 4090 or MacBook M-series Pro/Max for air-gapped work
"Runs on single consumer GPU (RTX 4090) or high-end MacBook"
devradar-dev.github.io ↗
Codestral (current 25.XX API version) priced at $0.30/M input, $0.90/M output tokens
"Mistral's cutting-edge language model for coding released end of July 2025. Codestral specializes in low-latency, high-frequency tasks such as fill-in-the-middle (FIM), code correction and test generation."
openrouter.ai ↗
Devstral 2 is a 123B-parameter dense transformer scoring 72.2% on SWE-Bench Verified at $0.40/$2.00 per million tokens
"Devstral 2 is a state-of-the-art open-source model by Mistral AI specializing in agentic coding. It is a 123B-parameter dense transformer model supporting a 256K context window."
openrouter.ai ↗
Mistral Large 3 is a sparse MoE with 41B active parameters out of 675B total, trained on ~3,000 H200 GPUs
"It is a sparse mixture-of-experts (MoE) model featuring 41 billion active parameters and a total of 675 billion parameters, trained from scratch on an exascale NVIDIA GPU cluster (about 3,000 H200 GPUs)"
intuitionlabs.ai ↗
Mixture-of-depths technique routes tokens to different layer depths, skipping later layers when confidence threshold is met; can be 50%+ faster during post-training sampling
"These models match baseline performance for equivalent FLOPS and wall-clock times to train, but require a fraction of the FLOPs per forward pass, and can be upwards of 50% faster to step during post-training sampling."
github.com ↗

Modelo de Mistura de Profundidades de 30B do Mistral permanece não confirmado, mas preencheria uma lacuna na pilha de código

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.