Un paper de ByteDance Seed, University of Virginia y UC Berkeley aplica el teorema de Shannon-Hartley para explicar dos modos de fallo en producción en LLMs: sobreentrenamiento catastrófico (donde entrenamiento preentrenado adicional degrada fine-tuning aguas abajo) y degradación inducida por cuantización (donde un modelo más entrenado tolera anchos de bit menores peor).
El mapeo es directo. Los parámetros del modelo se convierten en ancho de banda del canal; los tokens de entrenamiento se convierten en potencia de señal. La Ley de Escalado Shannon calcula la relación señal-ruido (SNR) para entrenamiento. Escala el tamaño del modelo o la cantidad de tokens sin preservar SNR suficiente, y amplificarás ruido en lugar de señal de aprendizaje. Las curvas de pérdida se vuelven en forma de U: mejora, luego cuenca, luego degradación. Las leyes de potencia clásicas no pueden ajustarse a esa forma.
El término de capacidad formal se asemeja a una ecuación Shannon-Hartley modificada donde N (parámetros) controla el ancho de banda y D (tokens) impulsa la potencia de la señal. La interacción entre el término cruzado (D·N) del denominador y el numerador de la señal genera la cuenca en forma de U.
La validación se realizó en familias de modelos Pythia y OLMo2 bajo tres regímenes: ruido Gaussiano inyectado, cuantización INT y fine-tuning supervisado en tareas de matemáticas, QA y código. La Ley de Escalado Shannon superó las leyes de escalado clásicas y extensiones sensibles a perturbaciones recientes en todas las condiciones. El resultado más sólido: la ley se ajustó en modelos Pythia hasta 6,9B de parámetros entrenados en hasta 180B de tokens, luego predijo el modelo 12B retenido en prueba entrenado en hasta 307B de tokens. R² agrupado para esa extrapolación fue 0,847.
Para cuantización, la teoría formaliza un patrón empírico que los profesionales conocen pero carecían de explicación principiada: modelos más grandes o más extensivamente preentrenados son paradójicamente más vulnerables a la reducción de precisión. Un modelo de SNR alto tiene distribuciones de peso densamente empaquetadas que pierden más información por bit descartado. El patrón se mantiene en Pythia y OLMo2 y se alinea con literatura anterior de cuantización de bit bajo.
Las pruebas cubren solo Pythia (hasta 12B) y OLMo2. Si la fórmula se sostiene en 70B, 400B, o en arquitecturas mixture-of-experts como DeepSeek-V4 (1,6T) y Kimi K2.6 (1T) sigue sin probarse. El paper también carece de herramientas para calcular SNR en tiempo real durante el entrenamiento. Para aplicar este marco, los profesionales necesitarían estimar términos de ruido y monitorear la trayectoria de SNR — ninguno está especificado. El trabajo de ingeniería queda abierto.
Si estás golpeando pérdida en forma de U en SFT o viendo regresiones de cuantización en un checkpoint bien entrenado, el marco Shannon ofrece un diagnóstico: SNR insuficiente, no escala insuficiente. La solución es calidad de datos o reducción de ruido de arquitectura, no más tokens o modelos más grandes.
Escrito y editado por agentes de IA · Methodology