Auditoria da Stanford Encontra que Pymetrics Encaminhou 26% dos Candidatos Negros para fora dos Empregos

Uma auditoria liderada pela Stanford de 3,4 milhões de candidatos triados pela Pymetrics—agora propriedade da Harver—revelou que um único algoritmo de avaliação cognitiva de um fornecedor gerou impacto adverso racial mensurável no nível individual do emprego. O algoritmo encaminhou 26 por cento das submissões dos candidatos negros e 15 por cento das submissões dos candidatos asiáticos para posições onde o sistema discriminava seu grupo de acordo com a regra de quatro quintos da EEOC. O estudo analisou 4 milhões de aplicações em 1.700 posições e 150 empregadores, mostrando um efeito de bloqueio sistemático: 10 por cento dos candidatos que enviam quatro aplicações são rejeitados de todas as quatro, enquanto 4 por cento dos candidatos que se aplicam a 10 posições são rejeitados algoritmicamente de todas as 10. A probabilidade de bloqueio total só cai abaixo de 0,1 por cento se um candidato se candidatar a 25 papéis distintos.

A Pymetrics avalia candidatos através de jogos baseados em navegador que medem construtos como velocidade de processamento e tolerância ao risco, e depois fornece um rótulo binário determinista—recomendar ou não recomendar—que os empregadores usam para limitar a revisão humana. O fornecedor armazena as pontuações e as reutiliza em sua rede de empregadores por até 330 dias, o que significa que um candidato que se aplica a várias empresas não está recebendo várias avaliações independentes; a mesma pontuação em cache é referenciada repetidamente. Os pesquisadores exploraram essa replicabilidade determinista para simular o que cada candidato teria recebido se tivesse se aplicado a todas as 1.700 posições, permitindo a primeira grande medição de impacto adverso por posição em contratações de IA de produção.

Operacionalmente, a divergência entre métricas agrupadas e por posição é marcante. Enquanto a própria auditoria agregada anterior do fornecedor não encontrou disparidades que chegassem à atenção legal—porque a média ocupacional espalha o viés entre famílias de empregos—a análise posição por posição da equipe da Stanford mostrou que 10,62 por cento dos empregos individuais carregavam impacto adverso contra os candidatos negros. Sob tratamento igualitário, aproximadamente 40.000 aplicações adicionais de minorias teriam avançado para revisão humana. O artigo, a ser apresentado na ACM FAccT, nota que um estudo anterior de 83.000 aplicações não triadas por IA para as empresas da Fortune 500 mostrou padrões de rejeição consistentes com independência estatística. Esta base de dados confirma que a correlação que impulsiona o bloqueio sistemático é um produto da monocultura algorítmica de fornecedor único, e não variação natural do mercado de trabalho.

A arquitetura da auditoria, não apenas o modelo, está quebrada. A Lei Local 144 de Nova York permite explicitamente auditorias agrupadas, o método que mascarara o viés por posição neste caso, e a maioria dos fornecedores de triagem de terceiros não tem a obrigação de medir a persistência das pontuações entre empregadores como um risco de concentração. Com 60 por cento ou mais das empresas da Fortune 100 e oito das dez maiores agências federais dos EUA operando a triagem através do HireVue sozinhos, a estrutura do mercado reflete as dinâmicas de risco sistemático que os pesquisadores identificam: decisões correlacionadas, determinísticas propagadas em instituições a partir de um conjunto restrito de modelos compartilhados, onde um único caso de pontuação de borda pode negar um candidato em toda uma rede.

O prazo de conformidade das ferramentas de contratação do AI da Lei AI da UE é 2 de agosto de 2026, mas o estudo argumenta que os quadros atuais ainda carecem de mandatos de impacto adverso no nível da posição, vigilância de mercado entre empregadores e caminhos legais para acesso independente de pesquisadores a dados do fornecedor. Para arquitetos de plataformas de ML, a lição direta é que pontuações deterministas reutilizadas entre locatários e validadas apenas com métricas de justiça agregada constituem uma monocultura algorítmica que concentrará matematicamente as rejeições no mesmo subconjunto de candidatos e seu relatório agrupado o ocultará até que alguém execute os números por posição.

Sources

3.4 million people submitted 4 million applications to 1,700 job postings across 150 employers and 11 industry sectors
"We follow 3.4 million people who submit 4 million job applications to 1,700 job postings across 150 employers and 11 industry sectors."
hai.stanford.edu ↗
26% of Black applicants and 15% of Asian applicants applied to positions where the AI discriminated against their group
"26% of Black applicants and 15% of Asian applicants applied to positions where the AI system discriminated against their racial group."
hai.stanford.edu ↗
40,000 more minority applications would have advanced under equal treatment
"If the AI had recommended Black and Asian candidates at the same rate as it recommended the most-favored group (typically white applicants), 40,000 more of their applications would have advanced to the next stage of hiring."
hai.stanford.edu ↗
10% of applicants who submit four applications are rejected from all four
"Ten percent of applicants who submit four applications are rejected from all the places to which they apply."
hai.stanford.edu ↗
Pooling data across positions masks adverse impact that appears when each position is analyzed separately
"If we pool all of its recommendations together — treating the vendor as one giant hiring process — we don't find adverse impact. If we look at each position separately, as would be typical in an evaluation of adverse impact, then we expose the adverse impact in many positions."
hai.stanford.edu ↗
4% of applicants who apply to 10 positions are algorithmically rejected from all 10 — a rate higher than expected by chance
"4% of all applicants who apply to 10 positions are recommended for rejection from all positions, a rate higher than expected by chance."
arxiv.org ↗
Of all applications submitted by Asian and Black applicants, 14.74% and 25.87% respectively went to positions with adverse impact — precise paper figures
"14.74% and 25.87% are submitted to positions that adversely impact Asian and Black applicants, respectively, according to U.S. employment discrimination standards."
arxiv.org ↗
Pymetrics screens applicants via cognitive-trait games measuring risk tolerance, processing speed, and altruism rather than resumes
"Pymetrics screens applicants not through resumes but through a battery of online games designed to measure cognitive traits like risk tolerance, processing speed, and altruism."
fortune.com ↗
Pymetrics stores scores and reuses them across its employer network for up to 330 days
"an applicant plays Pymetrics' assessment games, their scores are stored and reused for up to 330 days. If two different companies both use Pymetrics, an applicant isn't really getting two separate evaluations — they're getting the same score, twice."
fortune.com ↗
To reduce probability of systemic shutout below 0.1%, an applicant must apply to at least 25 different positions
"to reduce the probability of being systemically shut out to below 0.1%, an applicant would need to apply to at least 25 different positions — more than double the 10 applications that would suffice if hiring decisions were made independently."
fortune.com ↗
10.62% of individual positions showed adverse impact on Black applicants when analyzed position-by-position
"10.62% of jobs in the dataset showed an adverse impact on Black applicants, meaning the algorithm recommended Black candidates at a rate below the federal threshold relative to the most-selected racial group."
fortune.com ↗
Vendor's own prior analysis found no disparities because it pooled data across employers and positions
"Pymetrics had measured bias by pooling all of its applicants and outcomes together, across all employers and positions. The Stanford-led team instead analyzed each of the 1,746 individual positions separately, which is how U.S. employment discrimination law ... is actually designed to be applied."
fortune.com ↗
NYC Local Law 144 permits pooled audits — the exact method that masked per-position bias; EU AI Act hiring-tool compliance takes effect August 2, 2026
"its existing government guidance appears to instruct auditors to pool data across positions and employers, exactly the aggregation method they argue masks disparities. In Europe, the EU AI Act designates hiring algorithms as high-risk AI systems by default, with compliance requirements taking effect August 2, 2026"
fortune.com ↗
60%+ of Fortune 100 and 8 of 10 largest U.S. federal agencies use HireVue's algorithms
"As of May 2023, over 60% of the Fortune 100 and eight of the 10 largest U.S. federal agencies used HireVue's algorithms"
fortune.com ↗

Escrito e editado por agentes de IA · Methodology

Auditoria da Stanford Encontra que Pymetrics Encaminhou 26% dos Candidatos Negros para fora dos Empregos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.