Los LLMs de frontera muestran un sesgo de subordinación 50x contra nacionalidades de la Mayoría Global

Una investigación aceptada en la ACM Conference on Fairness, Accountability, and Transparency (FAccT '26) concluye que los grandes modelos de lenguaje ampliamente desplegados retratan a las nacionalidades de la Mayoría Global en roles de personajes subordinados más de 50 veces con mayor frecuencia que en roles dominantes — un sesgo estructural que los benchmarks estándar y las calificaciones de seguridad de los proveedores no capturan.

El estudio, elaborado por investigadores de Brown University, George Mason University y la Young Data Scientists League, ejecutó dos investigaciones paralelas. El Estudio 1 analizó 500.000 narrativas generadas por LLMs — producidas por GPT-3.5, GPT-4, Llama 2, Claude 2 y PaLM 2 — en respuesta a prompts abiertos con referencias de nacionalidad centradas en EE. UU., como "American." El Estudio 2 generó 292.500 narrativas usando GPT-4.1-Nano para las 195 naciones reconocidas globalmente, lo que permitió una comparación directa entre países. Un modelo GPT-4.1-Mini ajustado mediante fine-tuning actuó como capa de extracción, etiquetando referencias de nacionalidad en todo el corpus.

El patrón fue consistente entre los modelos: las identidades nacionales de la Mayoría Global están subrepresentadas en contextos narrativos de poder neutro y sobrerrepresentadas en retratos de personajes subordinados. La proporción de subordinación de 50x se mantuvo independientemente de qué modelo de frontera generó el texto. Los investigadores descartaron la sycophancy de prompt como explicación — cuando las referencias de nacionalidad de EE. UU. fueron reemplazadas por identidades nacionales no estadounidenses, el sesgo centrado en EE. UU. persistió, lo que indica que la distorsión está incorporada en los pesos del modelo y no es una respuesta superficial al encuadre explícito.

El riesgo empresarial es directo. En octubre de 2024, el Departamento de Seguridad Nacional de EE. UU. completó un programa piloto con IA generativa para capacitar a agentes de inmigración en entrevistas simuladas con personas virtuales de refugiados — el contexto de despliegue que examina el artículo. Cualquier organización que use LLMs para redactar contenido orientado al cliente, generar personas de empleados, sintetizar resúmenes de casos o apoyar flujos de trabajo próximos al gobierno enfrenta las mismas distorsiones representacionales que documenta el estudio.

La falla en los benchmarks es el hallazgo con el filo operacional más agudo. Los equipos que dependen de evaluaciones de equidad listas para usar o tarjetas de seguridad proporcionadas por proveedores no detectarán esta clase de sesgo en sus outputs. Las metodologías de evaluación existentes no están diseñadas para examinar el sesgo narrativo transnacional a escala; el red-teaming interno también tendrá un desempeño inferior a menos que construya prompts a lo largo de la dimensión de nacionalidad con extensión narrativa. Los equipos de adquisiciones y los asesores legales deben tratar esa brecha como exposición abierta bajo los requisitos de gobernanza de datos del Artículo 10 del EU AI Act y los marcos emergentes de responsabilidad de IA del gobierno federal de EE. UU.

Los autores publicaron en código abierto el conjunto de datos completo — 792.500 narrativas en total — y el código de fine-tuning y análisis en GitHub y HuggingFace, lo que permite la replicación de auditorías independientes por parte de equipos de IA empresariales. El artículo se presentará en FAccT '26 en Montreal en junio de 2026. La investigación deja abierta la pregunta de si los pipelines de generación aumentada por recuperación (RAG) que utilizan corpora más diversos reducen materialmente el sesgo, o si la distorsión reaparece en el tiempo de inferencia independientemente de la fuente de recuperación — una pregunta que los proveedores no han respondido públicamente.

Para los CTOs y arquitectos de IA que operan LLMs de frontera en producción, el estudio cierra la defensa del "no lo sabíamos." Los modelos mencionados — GPT-3.5, GPT-4, Llama 2, Claude 2, PaLM 2 — son los mismos que figuran en contratos empresariales hoy. La generación de narrativas subordinadas no es un caso extremo; es el comportamiento predeterminado.

Sources

Global Majority nationalities appear in subordinated character portrayals more than 50 times as often as in dominant portrayals across tested LLMs
"Minoritized national identities are simultaneously underrepresented in power-neutral stories and overrepresented in subordinated character portrayals, which are over fifty times more likely to appear than dominant portrayals."
arxiv.org ↗
Study 1 analyzed 500,000 LLM-generated narratives across GPT-3.5, GPT-4, Llama 2, Claude 2, and PaLM 2
"ilana27/llm-nationality-bias-us-narratives 500K LLM-generated narratives (GPT-3.5, GPT-4, Llama 2, Claude 2, PaLM 2) with nationality labels from the QA model."
github.com ↗
Study 2 generated 292,500 narratives using GPT-4.1-Nano across 195 globally recognized nations
"ilana27/llm-nationality-bias-global-narratives 292,500 narratives generated by GPT-4.1-Nano across 195 globally recognized nations."
github.com ↗
A fine-tuned GPT-4.1-Mini model was used to extract nationality references from the narrative corpus
"00_Finetune_QA_Model.ipynb # Fine-tune the nationality extraction QA model (run first)"
github.com ↗
US-centric bias persists even when US nationality cues are replaced with non-US national identities in prompts — ruling out sycophancy
"we find that the harms we identify cannot be explained away via sycophancy, as US-centric biases persist even when replacing US nationality cues with non-US national identities in the prompts."
arxiv.org ↗
In October 2024, the US Department of Homeland Security completed a pilot program using generative AI to train immigration officers in simulated interviews with virtual refugee personas
"the US Department of Homeland Security (DHS) announced in October 2024 the successful completion of a new pilot program to manage the growing backlog of asylum applications by using generative AI to train immigration officers in simulated interviews with virtual refugee personas"
arxiv.org ↗
The paper is accepted at ACM FAccT '26, to be held in Montreal in June 2026
"The 2026 ACM Conference on Fairness, Accountability, and Transparency (FAccT '26), June 25–28, 2026, Montreal, QC, Canada"
arxiv.org ↗
LLMs encode harmful biases including stereotypes, erasure, and one-dimensional portrayals of Global Majority identities
"Our findings demonstrate the presence of persistent representational harms by national origin, including harmful stereotypes, erasure, and one-dimensional portrayals of Global Majority identities."
arxiv.org ↗
Harm is amplified when US nationality cues such as 'American' are present in input prompts
"The degree of harm is amplified when US nationality cues (e.g., 'American') are present in input prompts."
arxiv.org ↗
Authors are from Brown University, George Mason University, and the Young Data Scientists League
"Ilana Nguyen ... Harini Suresh ... Brown University ... Thema Monroe-White ... George Mason University ... Evan Shieh ... Young Data Scientists League"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology