LLMs de fronteira apresentam viés de subordinação 50x maior contra nacionalidades da Maioria Global

Pesquisa aceita na ACM Conference on Fairness, Accountability, and Transparency (FAccT '26) constata que grandes modelos de linguagem amplamente implantados retratam nacionalidades da Maioria Global em papéis de personagens subordinados mais de 50 vezes com maior frequência do que em papéis dominantes — um viés estrutural que benchmarks-padrão e classificações de segurança de fornecedores não capturam.

O estudo, elaborado por pesquisadores da Brown University, da George Mason University e da Young Data Scientists League, conduziu duas investigações paralelas. O Estudo 1 analisou 500.000 narrativas geradas por LLMs — produzidas por GPT-3.5, GPT-4, Llama 2, Claude 2 e PaLM 2 — em resposta a prompts abertos com referências de nacionalidade centradas nos EUA, como "American." O Estudo 2 gerou 292.500 narrativas com GPT-4.1-Nano para todas as 195 nações reconhecidas globalmente, permitindo comparação direta entre países. Um modelo GPT-4.1-Mini ajustado por fine-tuning atuou como camada de extração, identificando referências de nacionalidade em todo o corpus.

O padrão foi consistente entre os modelos: identidades nacionais da Maioria Global estão sub-representadas em contextos narrativos de poder neutro e super-representadas em retratos de personagens subordinados. A proporção de subordinação de 50x se manteve independentemente de qual modelo de fronteira gerou o texto. Os pesquisadores descartaram a sycophancy de prompt como explicação — quando referências de nacionalidade dos EUA foram substituídas por identidades nacionais não-americanas, o viés centrado nos EUA persistiu, indicando que a distorção está incorporada nos pesos do modelo e não é uma resposta superficial ao enquadramento explícito.

O risco empresarial é direto. Em outubro de 2024, o Departamento de Segurança Interna dos EUA concluiu um programa-piloto com IA generativa para treinar agentes de imigração em entrevistas simuladas com personas virtuais de refugiados — o contexto de implantação que o artigo examina. Qualquer organização que use LLMs para redigir conteúdo voltado ao cliente, gerar personas de funcionários, sintetizar resumos de casos ou apoiar fluxos de trabalho próximos ao governo enfrenta as mesmas distorções representacionais documentadas pelo estudo.

A falha nos benchmarks é o achado com o impacto operacional mais agudo. Equipes que dependem de avaliações de equidade prontas para uso ou cartões de segurança fornecidos por vendors não verão essa classe de viés em seus outputs. As metodologias de avaliação existentes não foram projetadas para investigar viés narrativo transnacional em escala; o red-teaming interno também terá desempenho abaixo do esperado, a menos que construa prompts ao longo da dimensão de nacionalidade em extensão narrativa. Equipes de procurement e assessores jurídicos devem tratar essa lacuna como exposição aberta sob os requisitos de governança de dados do Artigo 10 do EU AI Act e os marcos emergentes de responsabilidade por IA do governo federal dos EUA.

Os autores disponibilizaram em código aberto o conjunto de dados completo — 792.500 narrativas no total — e os códigos de fine-tuning e análise no GitHub e HuggingFace, permitindo replicação independente de auditorias por equipes de IA corporativas. O artigo será apresentado no FAccT '26 em Montreal em junho de 2026. A pesquisa deixa em aberto se pipelines de geração aumentada por recuperação (RAG) que utilizam corpora mais diversos reduzem materialmente o viés, ou se a distorção reaparece no tempo de inferência independentemente da fonte de recuperação — uma questão que os fornecedores ainda não responderam publicamente.

Para CTOs e arquitetos de IA que operam LLMs de fronteira em produção, o estudo encerra a defesa do "não sabíamos". Os modelos citados — GPT-3.5, GPT-4, Llama 2, Claude 2, PaLM 2 — são os mesmos presentes em contratos empresariais hoje. A geração de narrativas subordinadas não é um caso marginal; é o comportamento padrão.

Sources

Global Majority nationalities appear in subordinated character portrayals more than 50 times as often as in dominant portrayals across tested LLMs
"Minoritized national identities are simultaneously underrepresented in power-neutral stories and overrepresented in subordinated character portrayals, which are over fifty times more likely to appear than dominant portrayals."
arxiv.org ↗
Study 1 analyzed 500,000 LLM-generated narratives across GPT-3.5, GPT-4, Llama 2, Claude 2, and PaLM 2
"ilana27/llm-nationality-bias-us-narratives 500K LLM-generated narratives (GPT-3.5, GPT-4, Llama 2, Claude 2, PaLM 2) with nationality labels from the QA model."
github.com ↗
Study 2 generated 292,500 narratives using GPT-4.1-Nano across 195 globally recognized nations
"ilana27/llm-nationality-bias-global-narratives 292,500 narratives generated by GPT-4.1-Nano across 195 globally recognized nations."
github.com ↗
A fine-tuned GPT-4.1-Mini model was used to extract nationality references from the narrative corpus
"00_Finetune_QA_Model.ipynb # Fine-tune the nationality extraction QA model (run first)"
github.com ↗
US-centric bias persists even when US nationality cues are replaced with non-US national identities in prompts — ruling out sycophancy
"we find that the harms we identify cannot be explained away via sycophancy, as US-centric biases persist even when replacing US nationality cues with non-US national identities in the prompts."
arxiv.org ↗
In October 2024, the US Department of Homeland Security completed a pilot program using generative AI to train immigration officers in simulated interviews with virtual refugee personas
"the US Department of Homeland Security (DHS) announced in October 2024 the successful completion of a new pilot program to manage the growing backlog of asylum applications by using generative AI to train immigration officers in simulated interviews with virtual refugee personas"
arxiv.org ↗
The paper is accepted at ACM FAccT '26, to be held in Montreal in June 2026
"The 2026 ACM Conference on Fairness, Accountability, and Transparency (FAccT '26), June 25–28, 2026, Montreal, QC, Canada"
arxiv.org ↗
LLMs encode harmful biases including stereotypes, erasure, and one-dimensional portrayals of Global Majority identities
"Our findings demonstrate the presence of persistent representational harms by national origin, including harmful stereotypes, erasure, and one-dimensional portrayals of Global Majority identities."
arxiv.org ↗
Harm is amplified when US nationality cues such as 'American' are present in input prompts
"The degree of harm is amplified when US nationality cues (e.g., 'American') are present in input prompts."
arxiv.org ↗
Authors are from Brown University, George Mason University, and the Young Data Scientists League
"Ilana Nguyen ... Harini Suresh ... Brown University ... Thema Monroe-White ... George Mason University ... Evan Shieh ... Young Data Scientists League"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology