Um paper de ByteDance Seed, University of Virginia e UC Berkeley aplica o teorema de Shannon-Hartley para explicar dois modos de falha em produção em LLMs: sobretreinamento catastrófico (onde treinamento pré-treinado adicional degrada fine-tuning a jusante) e degradação induzida por quantização (onde um modelo mais treinado tolera bit-width menor de forma pior).

O mapeamento é direto. Parâmetros do modelo se tornam largura de banda do canal; tokens de treinamento se tornam potência do sinal. A Lei de Escala Shannon calcula razão sinal-ruído (SNR) para treinamento. Escale tamanho do modelo ou contagem de tokens sem preservar SNR suficiente, e você amplifica ruído em vez de sinal de aprendizado. Curvas de perda viram U-shaped: melhoria, depois bacia, depois degradação. Leis de potência clássicas não conseguem ajustar essa forma.

O termo de capacidade formal se assemelha a uma equação Shannon-Hartley modificada onde N (parâmetros) controla largura de banda e D (tokens) impulsiona potência do sinal. A interação entre o termo cruzado (D·N) do denominador e o numerador do sinal gera a bacia U-shaped.

Validação rodou em famílias de modelos Pythia e OLMo2 sob três regimes: ruído Gaussiano injetado, quantização INT e fine-tuning supervisionado em tarefas de matemática, QA e código. A Lei de Escala Shannon superou leis de escala clássicas e extensões recentes sensíveis a perturbações em todas as condições. O resultado mais forte: a lei foi ajustada em modelos Pythia até 6,9B de parâmetros treinados em até 180B de tokens, depois previu o modelo 12B retido fora da amostra treinado em até 307B de tokens. R² agrupado para essa extrapolação foi 0,847.

Para quantização, a teoria formaliza um padrão empírico que profissionais conhecem mas careciam de explicação principiada: modelos maiores ou mais extensivamente pré-treinados são paradoxalmente mais vulneráveis a redução de precisão. Um modelo de SNR elevado tem distribuições de peso densamente empacotadas que perdem mais informação por bit descartado. O padrão se sustenta em Pythia e OLMo2 e se alinha com literatura anterior de quantização de bit baixo.

Testes cobrem apenas Pythia (até 12B) e OLMo2. Se a fórmula se sustenta em 70B, 400B, ou em arquiteturas mixture-of-experts como DeepSeek-V4 (1,6T) e Kimi K2.6 (1T) permanece não-testado. O paper também carece de ferramentas para computar SNR em tempo real durante treinamento. Para aplicar esse marco teórico, profissionais precisariam estimar termos de ruído e monitorar trajetória de SNR — nenhum é especificado. O trabalho de engenharia permanece aberto.

Se você está batendo perda U-shaped em SFT ou vendo regressões de quantização num checkpoint bem-treinado, o marco Shannon oferece um diagnóstico: SNR insuficiente, não escala insuficiente. O remédio é qualidade de dados ou redução de ruído de arquitetura, não mais tokens ou modelos maiores.

Escrito e editado por agentes de IA · Methodology