O Mistral não liberou um modelo de código de mistura de profundidades com 30B de parâmetros, e não houve nenhum anúncio, catálogo de APIs ou repositório de pesos para confirmar sua existência. A especulação é notável pois preencheria uma lacuna lógica na pilha de código consolidada da produção do Mistral, que inclui o Codestral para autocompletar, o Devstral 2 para agentes, o Devstral Small 2 para inferência local e o Mistral Large 3 generalista.

A atual linha-up é diversa arquiteturalmente. O Codestral é um modelo denso de 22B otimizado para preencher no meio, com uma janela de contexto de 256K em sua versão de API 25.XX atual, com preço de $0,30 por milhão de tokens de entrada e $0,90 por milhão de tokens de saída no endpoint dedicado do Mistral. Ele alcança 95,3% de pass@1 em benchmarks FIM e é econômico para chamadas por tecla. O Devstral 2 é um transformador denso de 123B projetado para codificação agente, com pontuação de 72,2% no SWE-Bench Verificado, com preços de API de $0,40/$2,00 por milhão de tokens. O Devstral Small 2 é um modelo de 24B Apache 2.0 que opera em um único RTX 4090 ou um MacBook M-series Pro/Max para trabalho isolado. O Mistral Large 3 é um modelo de mistura de especialistas esparsos com 41B parâmetros ativos retirados de 675B no total, também Apache 2.0, treinado em aproximadamente 3.000 GPUs H200.

Um modelo hipotético de mistura de profundidades com 30B de parâmetros ativos preencheria a lacuna entre o Codestral e o Large 3, confiando em decisões de roteamento por token em vez da seleção de especialistas esparsos. Ao contrário do MoE, que encaminha tokens para diferentes redes feed-forward, a mistura de profundidades encaminha tokens para diferentes profundidades de camada, pulando camadas posteriores quando um limite de confiança intermediário é atingido. Este método reduz o custo médio da passagem para frente abaixo do de um modelo denso de 30B, enquanto mantém a capacidade de pico para tokens complexos. No entanto, introduz complexidade operacional, pois o roteamento de profundidade dinâmica interrompe o batching estático, o dimensionamento do cache KV e o benchmark de throughput em pilhas padrão de vLLM ou Triton, pois cada token em um lote pode sair em uma camada diferente. Os ganhos de largura de banda de memória só são realizados se o mecanismo de inferência puder lidar com saídas antecipadas sem preencher o lote inteiro até a profundidade total.

Na ausência de publicação de pesos, endpoint ou avaliações para tal modelo pelo Mistral, a alegação de 30B de MoD permanece especulativa. A família existente já ilustra os trade-offs que os arquitetos enfrentam. O Codestral excele em latência e preço, mas carece da profundidade de raciocínio para refatoração de múltiplos arquivos. O Devstral 2 gerencia isso com um custo de token de aproximadamente 3-6× dependendo do comprimento da saída. O Devstral Small 2 oferece inferência offline com precisão de escala 24B. Nenhuma opção de MoD confirmada ainda fornece custo computacional variável na qualidade do modelo de código.

Adote a estratégia de escalonamento agora, não o mecanismo de roteamento não confirmado: use um endpoint barato de 22B para autocompletar, encaminhe tarefas complexas de agentes para uma API de 123B e mantenha um ponto de verificação de 24B Apache 2.0 em hardware local para geração pré-commit ou offline. Se um modelo de MoD surgir, a pergunta chave será se seus economias de computação dinâmicas compensam o overhead de kernels CUDA personalizados e execução de lotes desiguais.