Teorema de Shannon-Hartley Explica Regresiones de Cuantización en LLMs

Investigadores proponen la Ley de Escalado Shannon, reenmarcando el entrenamiento de LLM como transmisión de información sobre un canal ruidoso para explicar fenómenos de escalado no monotónicos (sobreentrenamiento catastrófico, degradación de cuantización). Ángulo del arquitecto: marco teórico explicando por qué computación adicional a veces daña el rendimiento — crítico para profesionales ajustando presupuestos de entrenamiento y estrategias de cuantización en el borde de capacidad.

Un paper de ByteDance Seed, University of Virginia y UC Berkeley aplica el teorema de Shannon-Hartley para explicar dos modos de fallo en producción en LLMs: sobreentrenamiento catastrófico (donde entrenamiento preentrenado adicional degrada fine-tuning aguas abajo) y degradación inducida por cuantización (donde un modelo más entrenado tolera anchos de bit menores peor).

El mapeo es directo. Los parámetros del modelo se convierten en ancho de banda del canal; los tokens de entrenamiento se convierten en potencia de señal. La Ley de Escalado Shannon calcula la relación señal-ruido (SNR) para entrenamiento. Escala el tamaño del modelo o la cantidad de tokens sin preservar SNR suficiente, y amplificarás ruido en lugar de señal de aprendizaje. Las curvas de pérdida se vuelven en forma de U: mejora, luego cuenca, luego degradación. Las leyes de potencia clásicas no pueden ajustarse a esa forma.

El término de capacidad formal se asemeja a una ecuación Shannon-Hartley modificada donde N (parámetros) controla el ancho de banda y D (tokens) impulsa la potencia de la señal. La interacción entre el término cruzado (D·N) del denominador y el numerador de la señal genera la cuenca en forma de U.

La validación se realizó en familias de modelos Pythia y OLMo2 bajo tres regímenes: ruido Gaussiano inyectado, cuantización INT y fine-tuning supervisado en tareas de matemáticas, QA y código. La Ley de Escalado Shannon superó las leyes de escalado clásicas y extensiones sensibles a perturbaciones recientes en todas las condiciones. El resultado más sólido: la ley se ajustó en modelos Pythia hasta 6,9B de parámetros entrenados en hasta 180B de tokens, luego predijo el modelo 12B retenido en prueba entrenado en hasta 307B de tokens. R² agrupado para esa extrapolación fue 0,847.

Para cuantización, la teoría formaliza un patrón empírico que los profesionales conocen pero carecían de explicación principiada: modelos más grandes o más extensivamente preentrenados son paradójicamente más vulnerables a la reducción de precisión. Un modelo de SNR alto tiene distribuciones de peso densamente empaquetadas que pierden más información por bit descartado. El patrón se mantiene en Pythia y OLMo2 y se alinea con literatura anterior de cuantización de bit bajo.

Las pruebas cubren solo Pythia (hasta 12B) y OLMo2. Si la fórmula se sostiene en 70B, 400B, o en arquitecturas mixture-of-experts como DeepSeek-V4 (1,6T) y Kimi K2.6 (1T) sigue sin probarse. El paper también carece de herramientas para calcular SNR en tiempo real durante el entrenamiento. Para aplicar este marco, los profesionales necesitarían estimar términos de ruido y monitorear la trayectoria de SNR — ninguno está especificado. El trabajo de ingeniería queda abierto.

Si estás golpeando pérdida en forma de U en SFT o viendo regresiones de cuantización en un checkpoint bien entrenado, el marco Shannon ofrece un diagnóstico: SNR insuficiente, no escala insuficiente. La solución es calidad de datos o reducción de ruido de arquitectura, no más tokens o modelos más grandes.

Sources

Shannon Scaling Law models LLM training as information transmission over a noisy channel grounded in the Shannon-Hartley theorem, mapping model parameters to channel bandwidth and training tokens to signal power
"By mapping model parameters to channel bandwidth and training tokens to signal power, our formulation explicitly captures the interaction between learning signal and intrinsic noise."
arxiv.org ↗
Scaling model size or data without preserving sufficient SNR amplifies noise and induces U-shaped performance degradation
"This perspective reveals a fundamental Shannon capacity for LLMs: scaling model size or data without preserving a sufficient signal-to-noise ratio (SNR) inevitably amplifies noise, inducing a transition from monotonic improvement to U-shaped performance degradation."
arxiv.org ↗
Validated on Pythia and OLMo2 under Gaussian noise, quantization, and SFT on math, QA, and code tasks
"We validate our theory through experiments on Pythia and OLMo2 under perturbations, including Gaussian noise, quantization and supervised fine-tuning on math, QA and code tasks."
arxiv.org ↗
Fitted on ≤6.9B Pythia models with ≤180B tokens, the Shannon Scaling Law predicts the unseen 12B model up to 307B tokens at pooled R²=0.847, while monotonic baselines collapse
"fitted on ≤6.9B Pythia models with ≤180B tokens, it predicts the unseen 12B model up to 307B tokens at pooled R²=0.847, while monotonic baselines collapse."
arxiv.org ↗
Classical power-law scaling laws fail to explain catastrophic overtraining and quantization-induced degradation
"Existing scaling laws for Large Language Models (LLMs), predominantly monotonic power laws, fail to explain emerging non-monotonic phenomena such as catastrophic overtraining and quantization-induced degradation, where performance deteriorates despite increased compute."
arxiv.org ↗
Larger or more extensively trained models are paradoxically more susceptible to quantization-induced degradation
"ouyang2024lowbitquantizationfavorsundertrained, kumar2024scalinglawsprecision observe that larger or more extensively trained models are paradoxically more susceptible to Quantization-induced Degradation (QiD)."
arxiv.org ↗
The Shannon Scaling Law outperforms classical scaling laws and recent perturbation-aware laws, accurately capturing loss basins missed by prior approaches
"The Shannon Scaling Law consistently outperforms classical scaling laws and recent perturbation-aware laws, achieving strong R² scores and accurately capturing loss basins missed by prior approaches."
arxiv.org ↗
DeepSeek-V4 has 1.6T parameters and Kimi K2.6 has 1T parameters
"This trajectory has driven the emergence of trillion-parameter Mixture-of-Experts models such as DeepSeek-V4 (1.6T) and Kimi K2.6 (1T), along with massive pretraining corpora."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Teorema de Shannon-Hartley Explica Regresiones de Cuantización en LLMs

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.