Investigadores Mapean Tasas de Alucinación por Tamaño de Modelo y Frecuencia de Datos

Estudio en 38 modelos + 8.900 referencias académicas encuentra una ley de escalamiento sigmoid vinculando la recuperación factual al conteo de parámetros y frecuencia de temas en datos de entrenamiento—explica el 60% de la varianza entre 16 modelos densos. Ángulo para arquitectos: úsalo para predecir tasas de alucinación para casos de uso específicos del dominio; adapta los harnesses de recuperación/verificación según qué temas tu modelo confabulará.

Investigadores del Centro Internacional de Investigación en Desarrollo, Universidad de Ciudad del Cabo y Universidad de Luxemburgo han producido una ley de escalamiento vinculando la recuperación factual de LLM al conteo de parámetros del modelo y frecuencia de temas en datos de entrenamiento. La ley se sostiene en 38 modelos y 8.913 referencias académicas verificadas. La implicación: tasas de confabulación en tu dominio son predecibles antes del despliegue, y la señal de si invertir en RAG vs. escalamiento ahora es cuantificable.

El hallazgo central es un ajuste sigmoid. Calidad de recuperación escala como σ(α·log₁₀P + β·log₁₀S + γ), donde P es conteo de parámetros y S es un proxy para frecuencia de temas en datos de entrenamiento. Las dos variables explican el 60% de la varianza en recuperación factual en 16 modelos densos de cuatro familias de modelos (384 observaciones modelo-tema de 3.661 referencias evaluadas).

Dentro de familias individuales, el ajuste se estrecha bruscamente. R² sube entre 74% y 94%. El modelo codifica más características que las que tiene dimensiones, así que la recuperación es controlada por la relación señal-ruído: señal escala con frecuencia de concepto, piso de ruido escala inversamente con capacidad del modelo.

El benchmark cubre 24 temas abarcando cinco órdenes de magnitud en representación en datos de entrenamiento — igualando temas mainstream de alta frecuencia contra aquellos profundamente de nicho. Evaluación usó verificación de referencias automatizada para comprobar si las referencias académicas citadas eran reales y atribuidas correctamente. Variantes de familias GPT, Claude y pesos abiertos fueron todas incluidas. Puntajes de recuperación específicos por modelo permanecen privados, pero la tendencia entre familias es directivamente consistente: frecuencia de representación de temas está positivamente asociada con calidad de recuperación independientemente de arquitectura o conteo de parámetros.

Arquitectos pueden construir una aproximación funcional de la tasa de alucinación esperada para un tema dado estimando cuántas veces ese tema aparece en el corpus de entrenamiento relativo a temas donde el modelo ya es confiable. La forma sigmoid significa que hay un límite de fase: debajo de un umbral combinado de tamaño de modelo y frecuencia de tema, recuperación colapsa; por encima de esto, recuperación se satura. Escalando un modelo por 2× puede hacer poco para un dominio de baja frecuencia si la representación de tema permanece como restricción de piso.

La brecha práctica: S es un proxy. Para modelos propietarios (GPT-4o, Claude Sonnet, Gemini), composición de datos de entrenamiento no es divulgada. Arquitectos trabajando en verticales de nicho — precedentes legales, literatura de enfermedades raras, manuales de equipos industriales — no pueden buscar S de su dominio directamente. Estimación indirecta es posible correlacionando desempeño del modelo en conjuntos de prueba de frecuencia conocida, pero requiere ejecutar tu propia suite de calibración.

Dos advertencias limitan la generalización. Primero, la tarea de recuperación factual es verificación de citas académicas, que tiene una verdad de referencia inusualmente limpia. Si el sigmoid se sostiene para recuperación de entidades, hechos numéricos o conocimiento procedural es no validado. Segundo, la evaluación de 38 modelos no incluye datos de despliegue en producción: latencia, costo, throughput e integración de recuperación en tiempo de inferencia están fuera del alcance. Esta es una herramienta de predicción pre-despliegue, no una en tiempo de ejecución.

Antes de desplegar sistemas puramente paramétricos para aplicaciones específicas del dominio, estima la frecuencia de datos de entrenamiento de tu dominio relativa a la curva de calibración de la familia de modelo. Si tu dominio cae en la cola de baja frecuencia, aumento de recuperación es infraestructura de carga crítica, no pulido opcional.

Sources

Recall quality follows a sigmoid in the log-linear combination of model parameter count and topic representation in training data: quality = σ(α·log₁₀P + β·log₁₀S + γ)
"Recall quality follows a sigmoid in the log-linear combination of model parameter count and topic representation in training data."
arxiv.org ↗
The two variables explain 60% of variance across 16 dense models from four families (N=384 model-topic observations from 3,661 evaluated references)
"Fitted to 16 dense models across 24 topics (N=384 model–topic observations from 3,661 evaluated references; R²=0.599)"
arxiv.org ↗
Within individual model families the R² rises to 74–94%
"rising to 74–94% within individual families"
arxiv.org ↗
The study evaluated 38 models on 8,913 scholarly references across 24 topics spanning five orders of magnitude in training-data representation
"We evaluated 38 models on over 8,900 scholarly references evaluated by an automated reference verification system."
arxiv.org ↗
Topic representation frequency is positively associated with recall quality independently of architecture or parameter count
"Across all 38 models and 8,913 evaluated scholarly references, topic representation frequency is positively associated with recall quality independently of architecture or parameter count."
arxiv.org ↗
The theoretical framing is a superposition-inspired signal-to-noise ratio where signal scales with concept frequency and the noise floor scales with model capacity
"recall is gated by a signal-to-noise ratio: signal strength scales with concept frequency and the noise floor with model capacity"
arxiv.org ↗
Both GPT-family and Claude-family models were included alongside open-weights variants
"Covers 38 diverse models (GPT, Claude, open-weights), so the sigmoid holds across families."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Investigadores Mapean Tasas de Alucinación por Tamaño de Modelo y Frecuencia de Datos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.