Multicalibração com 1% de Erro Exige Um Milhão de Amostras de Treinamento, Provam Pesquisadores

Quatro pesquisadores resolveram uma questão teórica aberta no campo de ML justo: exatamente quantos dados são necessários para certificar a multicalibração, a propriedade que exige que as previsões de um modelo sejam igualmente bem calibradas em todos os subgrupos demográficos. A resposta — Θ̃(ε⁻³) amostras, com fatores poliogarítmicos — fornece às equipes de conformidade e engenharia de ML um orçamento concreto de dados pela primeira vez.

O artigo, "The Sample Complexity of Multicalibration," é assinado por Natalie Collina, Jiuyao Lu, Georgy Noarov e Aaron Roth (arXiv, abril de 2026). Trabalhando no cenário padrão de aprendizado em lote — um aprendiz observa n amostras i.i.d. de uma distribuição desconhecida e, em seguida, produz um preditor — eles provam limites superiores e inferiores correspondentes sobre o erro de multicalibração medido pelo Expected Calibration Error (ECE). Especificamente, para qualquer κ > 0 fixo, no regime em que o número de grupos demográficos |G| ≤ ε⁻κ, a complexidade amostral minimax é Θ̃(ε⁻³): esse número de amostras é necessário e suficiente para reduzir o erro de multicalibração populacional abaixo de ε.

O limite inferior se aplica mesmo a preditores aleatorizados, descartando qualquer truque probabilístico para reduzir os requisitos de dados. O limite superior correspondente é alcançado por um preditor aleatorizado derivado por uma redução online-to-batch, convertendo algoritmos de aprendizado online existentes em um procedimento em lote eficiente em amostras.

O resultado operacional mais preciso é a diferença entre multicalibração e calibração marginal. A calibração marginal — que garante a acurácia geral das previsões sem considerar a pertença a subgrupos — exige apenas Θ̃(ε⁻²) amostras. Exigir calibração simultânea em todos os subgrupos protegidos acrescenta um fator ε⁻¹ adicional. Para equipes que projetam pipelines de treinamento em torno de tolerâncias específicas de erro de equidade, essa diferença de expoente se traduz diretamente em decisões sobre o tamanho do conjunto de dados: atingir um erro de multicalibração de ε = 0,01 exige da ordem de 10⁶ amostras, não as 10⁴ que a calibração marginal exige na mesma tolerância.

O artigo identifica um limiar preciso no caso limite κ = 0, em que o número de grupos cresce no máximo como uma constante — nesse ponto, a complexidade amostral colapsa para Θ̃(ε⁻²), igualando a calibração marginal. Isso sugere que, em cenários com poucos grupos, o custo extra que as empresas associam às auditorias de equidade por grupo pode estar superestimado. Os resultados se generalizam para uma métrica de multicalibração Lp ponderada para todo 1 ≤ p ≤ 2, com expoente ótimo de complexidade amostral 3/p, e se estendem a uma classe mais ampla de propriedades elicitáveis, incluindo expectis e quantis de densidade limitada — cobrindo métricas de equidade além da calibração média que reguladores estão começando a referenciar.

Um segundo resultado diz respeito aos cenários em lote e online. Para calibração marginal, o cenário online é estritamente mais difícil do que o em lote. A multicalibração quebra esse padrão: a complexidade amostral em lote e online são equivalentes, com fatores poliogarítmicos. Uma organização que investiu em infraestrutura de multicalibração online obtém garantias no cenário em lote sem custo amostral adicional — e vice-versa.

Para empresas sujeitas às obrigações de sistemas de alto risco do EU AI Act ou a programas internos de auditoria de viés, as implicações práticas são diretas. Até agora, as decisões de aquisição de dados para certificação de equidade eram amplamente heurísticas. O limite Θ̃(ε⁻³) converte uma aspiração de conformidade em uma especificação de engenharia: defina a tolerância aceitável de ECE ε, conte os subgrupos protegidos no escopo e calcule o piso do conjunto de treinamento. Auditores de equidade que citavam a multicalibração como padrão ouro agora podem anexar um requisito específico de tamanho de conjunto de dados a essa citação.

O limite é minimax — caracteriza o pior caso sobre distribuições — portanto, implantações reais com estrutura favorável podem precisar de menos dados. Mas em ambientes regulatórios adversariais, garantias de pior caso são exatamente o que os auditores querem.

Sources

Minimax sample complexity of multicalibration is Θ̃(ε⁻³), both necessary and sufficient, for |G| ≤ ε⁻κ with fixed κ > 0
"in the regime |G|≤ ε^{−κ}, we prove that Θ̃(ε^{−3}) samples are necessary and sufficient, up to polylogarithmic factors"
arxiv.org ↗
Lower bound on sample complexity holds even for randomized predictors
"The lower bound holds even for randomized predictors"
arxiv.org ↗
Upper bound is achieved by a randomized predictor obtained via an online-to-batch reduction
"the upper bound is realized by a randomized predictor obtained via an online-to-batch reduction"
arxiv.org ↗
Marginal calibration sample complexity scales as Θ̃(ε⁻²), separating it from multicalibration's Θ̃(ε⁻³)
"This separates the sample complexity of multicalibration from that of marginal calibration, which scales as Θ̃(ε^{−2})"
arxiv.org ↗
Batch and online sample complexity of multicalibration are equivalent, in contrast to marginal calibration which is strictly harder online
"mean-ECE multicalibration is as difficult in the batch setting as it is in the online setting, in contrast to marginal calibration which is strictly more difficult in the online setting"
arxiv.org ↗
At κ=0 the sample complexity of multicalibration remains Θ̃(ε⁻²), exhibiting a sharp threshold phenomenon
"for κ= 0, the sample complexity of multicalibration remains Θ̃(ε^{−2}) exhibiting a sharp threshold phenomenon"
arxiv.org ↗
Optimal sample-complexity exponent for weighted Lp multicalibration is 3/p for 1 ≤ p ≤ 2
"matching upper and lower bounds, up to polylogarithmic factors, for a weighted L_p multicalibration metric for all 1 ≤ p ≤ 2, with optimal exponent 3/p"
arxiv.org ↗
Results extend to elicitable properties including expectiles and bounded-density quantiles
"combine it with the online upper bounds of Hu et al. (2025) to obtain matching bounds for calibrating properties including expectiles and bounded-density quantiles"
arxiv.org ↗
Authors are Natalie Collina, Jiuyao Lu, Georgy Noarov, and Aaron Roth; published April 2026
"AUTHORS: Natalie Collina, Jiuyao Lu, Georgy Noarov, Aaron Roth — PUBLISHED: 2026-04-23"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology