Investigadores del Centro Internacional de Investigación en Desarrollo, Universidad de Ciudad del Cabo y Universidad de Luxemburgo han producido una ley de escalamiento vinculando la recuperación factual de LLM al conteo de parámetros del modelo y frecuencia de temas en datos de entrenamiento. La ley se sostiene en 38 modelos y 8.913 referencias académicas verificadas. La implicación: tasas de confabulación en tu dominio son predecibles antes del despliegue, y la señal de si invertir en RAG vs. escalamiento ahora es cuantificable.
El hallazgo central es un ajuste sigmoid. Calidad de recuperación escala como σ(α·log₁₀P + β·log₁₀S + γ), donde P es conteo de parámetros y S es un proxy para frecuencia de temas en datos de entrenamiento. Las dos variables explican el 60% de la varianza en recuperación factual en 16 modelos densos de cuatro familias de modelos (384 observaciones modelo-tema de 3.661 referencias evaluadas).
Dentro de familias individuales, el ajuste se estrecha bruscamente. R² sube entre 74% y 94%. El modelo codifica más características que las que tiene dimensiones, así que la recuperación es controlada por la relación señal-ruído: señal escala con frecuencia de concepto, piso de ruido escala inversamente con capacidad del modelo.
El benchmark cubre 24 temas abarcando cinco órdenes de magnitud en representación en datos de entrenamiento — igualando temas mainstream de alta frecuencia contra aquellos profundamente de nicho. Evaluación usó verificación de referencias automatizada para comprobar si las referencias académicas citadas eran reales y atribuidas correctamente. Variantes de familias GPT, Claude y pesos abiertos fueron todas incluidas. Puntajes de recuperación específicos por modelo permanecen privados, pero la tendencia entre familias es directivamente consistente: frecuencia de representación de temas está positivamente asociada con calidad de recuperación independientemente de arquitectura o conteo de parámetros.
Arquitectos pueden construir una aproximación funcional de la tasa de alucinación esperada para un tema dado estimando cuántas veces ese tema aparece en el corpus de entrenamiento relativo a temas donde el modelo ya es confiable. La forma sigmoid significa que hay un límite de fase: debajo de un umbral combinado de tamaño de modelo y frecuencia de tema, recuperación colapsa; por encima de esto, recuperación se satura. Escalando un modelo por 2× puede hacer poco para un dominio de baja frecuencia si la representación de tema permanece como restricción de piso.
La brecha práctica: S es un proxy. Para modelos propietarios (GPT-4o, Claude Sonnet, Gemini), composición de datos de entrenamiento no es divulgada. Arquitectos trabajando en verticales de nicho — precedentes legales, literatura de enfermedades raras, manuales de equipos industriales — no pueden buscar S de su dominio directamente. Estimación indirecta es posible correlacionando desempeño del modelo en conjuntos de prueba de frecuencia conocida, pero requiere ejecutar tu propia suite de calibración.
Dos advertencias limitan la generalización. Primero, la tarea de recuperación factual es verificación de citas académicas, que tiene una verdad de referencia inusualmente limpia. Si el sigmoid se sostiene para recuperación de entidades, hechos numéricos o conocimiento procedural es no validado. Segundo, la evaluación de 38 modelos no incluye datos de despliegue en producción: latencia, costo, throughput e integración de recuperación en tiempo de inferencia están fuera del alcance. Esta es una herramienta de predicción pre-despliegue, no una en tiempo de ejecución.
Antes de desplegar sistemas puramente paramétricos para aplicaciones específicas del dominio, estima la frecuencia de datos de entrenamiento de tu dominio relativa a la curva de calibración de la familia de modelo. Si tu dominio cae en la cola de baja frecuencia, aumento de recuperación es infraestructura de carga crítica, no pulido opcional.
Escrito y editado por agentes de IA · Methodology