La Multicalibración con 1% de Error Exige Un Millón de Muestras de Entrenamiento, Prueban Investigadores

Cuatro investigadores han resuelto una pregunta teórica abierta en el campo del ML justo: exactamente cuántos datos se necesitan para certificar la multicalibración, la propiedad que exige que las predicciones de un modelo estén igualmente bien calibradas en todos los subgrupos demográficos. La respuesta — Θ̃(ε⁻³) muestras, con factores polilogarítmicos — proporciona a los equipos de cumplimiento e ingeniería de ML un presupuesto de datos concreto por primera vez.

El artículo, "The Sample Complexity of Multicalibration," está firmado por Natalie Collina, Jiuyao Lu, Georgy Noarov y Aaron Roth (arXiv, abril de 2026). Trabajando en el escenario estándar de aprendizaje por lotes — un aprendiz observa n muestras i.i.d. de una distribución desconocida y luego produce un predictor — demuestran límites superiores e inferiores coincidentes sobre el error de multicalibración medido por el Expected Calibration Error (ECE). Específicamente, para cualquier κ > 0 fijo, en el régimen donde el número de grupos demográficos |G| ≤ ε⁻κ, la complejidad muestral minimax es Θ̃(ε⁻³): ese número de muestras es necesario y suficiente para reducir el error de multicalibración poblacional por debajo de ε.

El límite inferior se aplica incluso a predictores aleatorizados, descartando cualquier truco probabilístico para reducir los requisitos de datos. El límite superior coincidente se logra mediante un predictor aleatorizado derivado a través de una reducción online-to-batch, que convierte algoritmos de aprendizaje en línea existentes en un procedimiento por lotes eficiente en muestras.

El resultado operacional más preciso es la brecha entre multicalibración y calibración marginal. La calibración marginal — que garantiza la precisión general de las predicciones sin considerar la pertenencia a subgrupos — requiere solo Θ̃(ε⁻²) muestras. Exigir calibración simultánea en todos los subgrupos protegidos añade un factor ε⁻¹ adicional. Para los equipos que diseñan pipelines de entrenamiento en torno a tolerancias específicas de error de equidad, esta diferencia de exponente se traduce directamente en decisiones sobre el tamaño del conjunto de datos: alcanzar un error de multicalibración de ε = 0,01 requiere del orden de 10⁶ muestras, no las 10⁴ que exige la calibración marginal con la misma tolerancia.

El artículo identifica un umbral preciso en el caso límite κ = 0, donde el número de grupos crece a lo sumo como una constante — en ese punto, la complejidad muestral colapsa a Θ̃(ε⁻²), igualando la calibración marginal. Esto sugiere que en escenarios con pocos grupos, el costo adicional que las empresas asocian a las auditorías de equidad por grupo puede estar sobreestimado. Los resultados se generalizan a una métrica de multicalibración Lp ponderada para todo 1 ≤ p ≤ 2, con exponente óptimo de complejidad muestral 3/p, y se extienden a una clase más amplia de propiedades elicitables, incluyendo expectiles y cuantiles de densidad acotada — abarcando métricas de equidad más allá de la calibración media que los reguladores están comenzando a referenciar.

Un segundo hallazgo concierne a los escenarios por lotes y en línea. Para la calibración marginal, el escenario en línea es estrictamente más difícil que el de lotes. La multicalibración rompe ese patrón: la complejidad muestral por lotes y en línea son equivalentes, con factores polilogarítmicos. Una organización que ha invertido en infraestructura de multicalibración en línea obtiene garantías en el escenario por lotes sin costo muestral adicional — y viceversa.

Para las empresas sujetas a las obligaciones de sistemas de alto riesgo del EU AI Act o a programas internos de auditoría de sesgo, las implicaciones prácticas son directas. Hasta ahora, las decisiones de adquisición de datos para la certificación de equidad eran en gran medida heurísticas. El límite Θ̃(ε⁻³) convierte una aspiración de cumplimiento en una especificación de ingeniería: defina la tolerancia aceptable de ECE ε, cuente los subgrupos protegidos en alcance y calcule el piso del conjunto de entrenamiento. Los auditores de equidad que han citado la multicalibración como estándar de referencia ahora pueden adjuntar un requisito específico de tamaño de conjunto de datos a esa cita.

El límite es minimax — caracteriza el peor caso sobre distribuciones — por lo que los despliegues reales con estructura favorable pueden necesitar menos datos. Pero en entornos regulatorios adversariales, las garantías de peor caso son exactamente lo que los auditores buscan.

Sources

Minimax sample complexity of multicalibration is Θ̃(ε⁻³), both necessary and sufficient, for |G| ≤ ε⁻κ with fixed κ > 0
"in the regime |G|≤ ε^{−κ}, we prove that Θ̃(ε^{−3}) samples are necessary and sufficient, up to polylogarithmic factors"
arxiv.org ↗
Lower bound on sample complexity holds even for randomized predictors
"The lower bound holds even for randomized predictors"
arxiv.org ↗
Upper bound is achieved by a randomized predictor obtained via an online-to-batch reduction
"the upper bound is realized by a randomized predictor obtained via an online-to-batch reduction"
arxiv.org ↗
Marginal calibration sample complexity scales as Θ̃(ε⁻²), separating it from multicalibration's Θ̃(ε⁻³)
"This separates the sample complexity of multicalibration from that of marginal calibration, which scales as Θ̃(ε^{−2})"
arxiv.org ↗
Batch and online sample complexity of multicalibration are equivalent, in contrast to marginal calibration which is strictly harder online
"mean-ECE multicalibration is as difficult in the batch setting as it is in the online setting, in contrast to marginal calibration which is strictly more difficult in the online setting"
arxiv.org ↗
At κ=0 the sample complexity of multicalibration remains Θ̃(ε⁻²), exhibiting a sharp threshold phenomenon
"for κ= 0, the sample complexity of multicalibration remains Θ̃(ε^{−2}) exhibiting a sharp threshold phenomenon"
arxiv.org ↗
Optimal sample-complexity exponent for weighted Lp multicalibration is 3/p for 1 ≤ p ≤ 2
"matching upper and lower bounds, up to polylogarithmic factors, for a weighted L_p multicalibration metric for all 1 ≤ p ≤ 2, with optimal exponent 3/p"
arxiv.org ↗
Results extend to elicitable properties including expectiles and bounded-density quantiles
"combine it with the online upper bounds of Hu et al. (2025) to obtain matching bounds for calibrating properties including expectiles and bounded-density quantiles"
arxiv.org ↗
Authors are Natalie Collina, Jiuyao Lu, Georgy Noarov, and Aaron Roth; published April 2026
"AUTHORS: Natalie Collina, Jiuyao Lu, Georgy Noarov, Aaron Roth — PUBLISHED: 2026-04-23"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology