Auditoría de Stanford Encuentra que Pymetrics Envió a 26% de Solicitantes Negros Lejos de los Trabajos

Una auditoría liderada por Stanford de 3.4 millones de solicitantes evaluados por Pymetrics— ahora propiedad de Harver— reveló que un algoritmo de evaluación cognitiva de un solo proveedor generó un impacto adverso racial medible a nivel de trabajo individual. El algoritmo dirigió el 26 por ciento de las presentaciones de solicitantes negros y el 15 por ciento de las presentaciones de solicitantes asiáticos a posiciones donde el sistema discriminaba contra su grupo bajo la regla de cuatro quintos de la EEOC. El estudio analizó 4 millones de solicitudes en 1,700 puestos y 150 empleadores, mostrando un efecto de cierre sistemático: el 10 por ciento de los solicitantes que envían cuatro solicitudes son rechazados de las cuatro, mientras que el 4 por ciento de los solicitantes que aplican a 10 puestos son rechazados algorítmicamente de los 10. La probabilidad de un cierre total solo se reduce por debajo del 0.1 por ciento si un solicitante envía a 25 roles distintos.

Pymetrics evalúa a los solicitantes a través de juegos de rasgos cognitivos basados en navegador que miden constructos como la velocidad de procesamiento y la tolerancia al riesgo, luego emite una etiqueta binaria determinista—recomendar o no recomendar—que los empleadores utilizan para filtrar la revisión humana. El proveedor almacena las puntuaciones y las reutiliza a lo largo de su red de empleadores durante hasta 330 días, lo que significa que un solicitante que aplica a múltiples empresas no recibe múltiples evaluaciones independientes; la misma puntuación en caché se consulta repetidamente. Los investigadores aprovecharon esta replicabilidad determinista para simular lo que cada solicitante habría recibido si hubiera aplicado a todos los 1,700 puestos, permitiendo la primera medición a gran escala del impacto adverso por posición en la contratación de IA en producción.

Operativamente, la divergencia entre métricas agrupadas y por posición es aguda. Mientras que la propia auditoría agregada previa del proveedor no encontró disparidades que llegaran a la consideración legal—porque el promedio ocupacional difumina el sesgo a lo largo de las familias de empleo—el análisis por posición del equipo de Stanford mostró que el 10.62 por ciento de los trabajos individuales tuvieron un impacto adverso contra los solicitantes negros. Bajo un tratamiento igualitario, aproximadamente 40,000 solicitudes adicionales de minorías habrían avanzado a la revisión humana. El documento, que se presentará en ACM FAccT, señala que un estudio previo de 83,000 solicitudes no filtradas por IA a firmas Fortune 500 mostró patrones de rechazo consistentes con la independencia estadística. Esta línea base confirma que la correlación que impulsa el cierre sistemático es un producto de la monocultura algorítmica de un solo proveedor, no de la varianza del mercado laboral natural.

La arquitectura de la auditoría, no solo el modelo, está rota. La Ley Local 144 de la Ciudad de Nueva York permite explícitamente auditorías agrupadas, el método que enmascaró el sesgo por posición en este caso, y la mayoría de los proveedores de selección de terceros no tienen la obligación de medir la persistencia de las puntuaciones entre empleadores como un riesgo de concentración. Con el 60 por ciento o más de las firmas Fortune 100 y ocho de las diez agencias federales más grandes de EE. UU. operando la selección a través de HireVue solo, la estructura del mercado refleja la dinámica de riesgo sistemático que los investigadores identifican: decisiones correlacionadas, deterministas propagadas a lo largo de las instituciones a partir de un conjunto reducido de modelos compartidos, donde un caso extremo de puntuación puede blacklistear a un solicitante en toda una red.

La fecha límite de cumplimiento de las herramientas de contratación del AI Act de la UE es el 2 de agosto de 2026, pero el estudio argumenta que los marcos actuales aún carecen de mandatos de impacto adverso a nivel de posición, vigilancia del mercado entre empleadores y vías legales para que los investigadores independientes accedan a los datos del proveedor. Para los arquitectos de plataformas de ML, el mensaje claro es que las puntuaciones deterministas reutilizadas entre inquilinos y validadas solo con métricas de equidad agregadas constituyen una monocultura algorítmica que concentrará matemáticamente los rechazos en el mismo subconjunto de solicitantes y su informe agrupado lo ocultará hasta que alguien corra los números por posición.

Sources

3.4 million people submitted 4 million applications to 1,700 job postings across 150 employers and 11 industry sectors
"We follow 3.4 million people who submit 4 million job applications to 1,700 job postings across 150 employers and 11 industry sectors."
hai.stanford.edu ↗
26% of Black applicants and 15% of Asian applicants applied to positions where the AI discriminated against their group
"26% of Black applicants and 15% of Asian applicants applied to positions where the AI system discriminated against their racial group."
hai.stanford.edu ↗
40,000 more minority applications would have advanced under equal treatment
"If the AI had recommended Black and Asian candidates at the same rate as it recommended the most-favored group (typically white applicants), 40,000 more of their applications would have advanced to the next stage of hiring."
hai.stanford.edu ↗
10% of applicants who submit four applications are rejected from all four
"Ten percent of applicants who submit four applications are rejected from all the places to which they apply."
hai.stanford.edu ↗
Pooling data across positions masks adverse impact that appears when each position is analyzed separately
"If we pool all of its recommendations together — treating the vendor as one giant hiring process — we don't find adverse impact. If we look at each position separately, as would be typical in an evaluation of adverse impact, then we expose the adverse impact in many positions."
hai.stanford.edu ↗
4% of applicants who apply to 10 positions are algorithmically rejected from all 10 — a rate higher than expected by chance
"4% of all applicants who apply to 10 positions are recommended for rejection from all positions, a rate higher than expected by chance."
arxiv.org ↗
Of all applications submitted by Asian and Black applicants, 14.74% and 25.87% respectively went to positions with adverse impact — precise paper figures
"14.74% and 25.87% are submitted to positions that adversely impact Asian and Black applicants, respectively, according to U.S. employment discrimination standards."
arxiv.org ↗
Pymetrics screens applicants via cognitive-trait games measuring risk tolerance, processing speed, and altruism rather than resumes
"Pymetrics screens applicants not through resumes but through a battery of online games designed to measure cognitive traits like risk tolerance, processing speed, and altruism."
fortune.com ↗
Pymetrics stores scores and reuses them across its employer network for up to 330 days
"an applicant plays Pymetrics' assessment games, their scores are stored and reused for up to 330 days. If two different companies both use Pymetrics, an applicant isn't really getting two separate evaluations — they're getting the same score, twice."
fortune.com ↗
To reduce probability of systemic shutout below 0.1%, an applicant must apply to at least 25 different positions
"to reduce the probability of being systemically shut out to below 0.1%, an applicant would need to apply to at least 25 different positions — more than double the 10 applications that would suffice if hiring decisions were made independently."
fortune.com ↗
10.62% of individual positions showed adverse impact on Black applicants when analyzed position-by-position
"10.62% of jobs in the dataset showed an adverse impact on Black applicants, meaning the algorithm recommended Black candidates at a rate below the federal threshold relative to the most-selected racial group."
fortune.com ↗
Vendor's own prior analysis found no disparities because it pooled data across employers and positions
"Pymetrics had measured bias by pooling all of its applicants and outcomes together, across all employers and positions. The Stanford-led team instead analyzed each of the 1,746 individual positions separately, which is how U.S. employment discrimination law ... is actually designed to be applied."
fortune.com ↗
NYC Local Law 144 permits pooled audits — the exact method that masked per-position bias; EU AI Act hiring-tool compliance takes effect August 2, 2026
"its existing government guidance appears to instruct auditors to pool data across positions and employers, exactly the aggregation method they argue masks disparities. In Europe, the EU AI Act designates hiring algorithms as high-risk AI systems by default, with compliance requirements taking effect August 2, 2026"
fortune.com ↗
60%+ of Fortune 100 and 8 of 10 largest U.S. federal agencies use HireVue's algorithms
"As of May 2023, over 60% of the Fortune 100 and eight of the 10 largest U.S. federal agencies used HireVue's algorithms"
fortune.com ↗

Escrito y editado por agentes de IA · Methodology

Auditoría de Stanford Encuentra que Pymetrics Envió a 26% de Solicitantes Negros Lejos de los Trabajos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.