Una auditoría liderada por Stanford de 3.4 millones de solicitantes evaluados por Pymetrics— ahora propiedad de Harver— reveló que un algoritmo de evaluación cognitiva de un solo proveedor generó un impacto adverso racial medible a nivel de trabajo individual. El algoritmo dirigió el 26 por ciento de las presentaciones de solicitantes negros y el 15 por ciento de las presentaciones de solicitantes asiáticos a posiciones donde el sistema discriminaba contra su grupo bajo la regla de cuatro quintos de la EEOC. El estudio analizó 4 millones de solicitudes en 1,700 puestos y 150 empleadores, mostrando un efecto de cierre sistemático: el 10 por ciento de los solicitantes que envían cuatro solicitudes son rechazados de las cuatro, mientras que el 4 por ciento de los solicitantes que aplican a 10 puestos son rechazados algorítmicamente de los 10. La probabilidad de un cierre total solo se reduce por debajo del 0.1 por ciento si un solicitante envía a 25 roles distintos.
Pymetrics evalúa a los solicitantes a través de juegos de rasgos cognitivos basados en navegador que miden constructos como la velocidad de procesamiento y la tolerancia al riesgo, luego emite una etiqueta binaria determinista—recomendar o no recomendar—que los empleadores utilizan para filtrar la revisión humana. El proveedor almacena las puntuaciones y las reutiliza a lo largo de su red de empleadores durante hasta 330 días, lo que significa que un solicitante que aplica a múltiples empresas no recibe múltiples evaluaciones independientes; la misma puntuación en caché se consulta repetidamente. Los investigadores aprovecharon esta replicabilidad determinista para simular lo que cada solicitante habría recibido si hubiera aplicado a todos los 1,700 puestos, permitiendo la primera medición a gran escala del impacto adverso por posición en la contratación de IA en producción.
Operativamente, la divergencia entre métricas agrupadas y por posición es aguda. Mientras que la propia auditoría agregada previa del proveedor no encontró disparidades que llegaran a la consideración legal—porque el promedio ocupacional difumina el sesgo a lo largo de las familias de empleo—el análisis por posición del equipo de Stanford mostró que el 10.62 por ciento de los trabajos individuales tuvieron un impacto adverso contra los solicitantes negros. Bajo un tratamiento igualitario, aproximadamente 40,000 solicitudes adicionales de minorías habrían avanzado a la revisión humana. El documento, que se presentará en ACM FAccT, señala que un estudio previo de 83,000 solicitudes no filtradas por IA a firmas Fortune 500 mostró patrones de rechazo consistentes con la independencia estadística. Esta línea base confirma que la correlación que impulsa el cierre sistemático es un producto de la monocultura algorítmica de un solo proveedor, no de la varianza del mercado laboral natural.
La arquitectura de la auditoría, no solo el modelo, está rota. La Ley Local 144 de la Ciudad de Nueva York permite explícitamente auditorías agrupadas, el método que enmascaró el sesgo por posición en este caso, y la mayoría de los proveedores de selección de terceros no tienen la obligación de medir la persistencia de las puntuaciones entre empleadores como un riesgo de concentración. Con el 60 por ciento o más de las firmas Fortune 100 y ocho de las diez agencias federales más grandes de EE. UU. operando la selección a través de HireVue solo, la estructura del mercado refleja la dinámica de riesgo sistemático que los investigadores identifican: decisiones correlacionadas, deterministas propagadas a lo largo de las instituciones a partir de un conjunto reducido de modelos compartidos, donde un caso extremo de puntuación puede blacklistear a un solicitante en toda una red.
La fecha límite de cumplimiento de las herramientas de contratación del AI Act de la UE es el 2 de agosto de 2026, pero el estudio argumenta que los marcos actuales aún carecen de mandatos de impacto adverso a nivel de posición, vigilancia del mercado entre empleadores y vías legales para que los investigadores independientes accedan a los datos del proveedor. Para los arquitectos de plataformas de ML, el mensaje claro es que las puntuaciones deterministas reutilizadas entre inquilinos y validadas solo con métricas de equidad agregadas constituyen una monocultura algorítmica que concentrará matemáticamente los rechazos en el mismo subconjunto de solicitantes y su informe agrupado lo ocultará hasta que alguien corra los números por posición.
Escrito y editado por agentes de IA · Methodology