Teorema de Shannon-Hartley Explica Regressões de Quantização em LLMs

Pesquisadores propõem a Lei de Escala Shannon, reformulando o treinamento de LLM como transmissão de informação por um canal ruidoso para explicar fenômenos de escala não-monotônicos (sobretreinamento catastrófico, degradação de quantização). Ângulo do arquiteto: marco teórico explicando por que computação adicional às vezes piora desempenho — crítico para profissionais ajustando orçamentos de treinamento e estratégias de quantização na borda da capacidade.

Um paper de ByteDance Seed, University of Virginia e UC Berkeley aplica o teorema de Shannon-Hartley para explicar dois modos de falha em produção em LLMs: sobretreinamento catastrófico (onde treinamento pré-treinado adicional degrada fine-tuning a jusante) e degradação induzida por quantização (onde um modelo mais treinado tolera bit-width menor de forma pior).

O mapeamento é direto. Parâmetros do modelo se tornam largura de banda do canal; tokens de treinamento se tornam potência do sinal. A Lei de Escala Shannon calcula razão sinal-ruído (SNR) para treinamento. Escale tamanho do modelo ou contagem de tokens sem preservar SNR suficiente, e você amplifica ruído em vez de sinal de aprendizado. Curvas de perda viram U-shaped: melhoria, depois bacia, depois degradação. Leis de potência clássicas não conseguem ajustar essa forma.

O termo de capacidade formal se assemelha a uma equação Shannon-Hartley modificada onde N (parâmetros) controla largura de banda e D (tokens) impulsiona potência do sinal. A interação entre o termo cruzado (D·N) do denominador e o numerador do sinal gera a bacia U-shaped.

Validação rodou em famílias de modelos Pythia e OLMo2 sob três regimes: ruído Gaussiano injetado, quantização INT e fine-tuning supervisionado em tarefas de matemática, QA e código. A Lei de Escala Shannon superou leis de escala clássicas e extensões recentes sensíveis a perturbações em todas as condições. O resultado mais forte: a lei foi ajustada em modelos Pythia até 6,9B de parâmetros treinados em até 180B de tokens, depois previu o modelo 12B retido fora da amostra treinado em até 307B de tokens. R² agrupado para essa extrapolação foi 0,847.

Para quantização, a teoria formaliza um padrão empírico que profissionais conhecem mas careciam de explicação principiada: modelos maiores ou mais extensivamente pré-treinados são paradoxalmente mais vulneráveis a redução de precisão. Um modelo de SNR elevado tem distribuições de peso densamente empacotadas que perdem mais informação por bit descartado. O padrão se sustenta em Pythia e OLMo2 e se alinha com literatura anterior de quantização de bit baixo.

Testes cobrem apenas Pythia (até 12B) e OLMo2. Se a fórmula se sustenta em 70B, 400B, ou em arquiteturas mixture-of-experts como DeepSeek-V4 (1,6T) e Kimi K2.6 (1T) permanece não-testado. O paper também carece de ferramentas para computar SNR em tempo real durante treinamento. Para aplicar esse marco teórico, profissionais precisariam estimar termos de ruído e monitorar trajetória de SNR — nenhum é especificado. O trabalho de engenharia permanece aberto.

Se você está batendo perda U-shaped em SFT ou vendo regressões de quantização num checkpoint bem-treinado, o marco Shannon oferece um diagnóstico: SNR insuficiente, não escala insuficiente. O remédio é qualidade de dados ou redução de ruído de arquitetura, não mais tokens ou modelos maiores.

Sources

Shannon Scaling Law models LLM training as information transmission over a noisy channel grounded in the Shannon-Hartley theorem, mapping model parameters to channel bandwidth and training tokens to signal power
"By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise."
arxiv.org ↗
Scaling model size or data without preserving sufficient SNR amplifies noise and induces U-shaped performance degradation
"This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation."
arxiv.org ↗
Validated on Pythia and OLMo2 under Gaussian noise, quantization, and SFT on math, QA, and code tasks
"We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks."
arxiv.org ↗
Fitted on ≤6.9B Pythia models with ≤180B tokens, the Shannon Scaling Law predicts the unseen 12B model up to 307B tokens at pooled R²=0.847, while monotonic baselines collapse
"fitted on ≤6.9B Pythia models with ≤180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R²=0.847, while monotonic baselines collapse."
arxiv.org ↗
Classical power-law scaling laws fail to explain catastrophic overtraining and quantization-induced degradation
"Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute."
arxiv.org ↗
Larger or more extensively trained models are paradoxically more susceptible to quantization-induced degradation
"ouyang2024lowbitquantizationfavorsundertrained, kumar2024scalinglawsprecision observe that larger or more extensively trained models are paradoxically more susceptible to Quantization-induced Degradation (QiD)."
arxiv.org ↗
The Shannon Scaling Law outperforms classical scaling laws and recent perturbation-aware laws, accurately capturing loss basins missed by prior approaches
"The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R² scores and accurately capturing loss basins missed by prior approaches."
arxiv.org ↗
DeepSeek-V4 has 1.6T parameters and Kimi K2.6 has 1T parameters
"This trajectory has driven the emergence of trillion-parameter Mixture-of-Experts models such as DeepSeek-V4 (1.6T) and Kimi K2.6 (1T), along with massive pretraining corpora."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Teorema de Shannon-Hartley Explica Regressões de Quantização em LLMs

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.