Persona Collapse Socava las Simulaciones LLM Multiagente en Diez Modelos

Investigadores de CMU, UChicago, MIT y Johns Hopkins han identificado un modo de falla estructural al que denominan "Persona Collapse" — una condición en la que agentes LLM con perfiles conductuales distintos convergen en una población estadísticamente homogénea, independientemente de la riqueza con que se especifican esas personas. El hallazgo, documentado en diez modelos de frontera, socava directamente el supuesto central detrás de las simulaciones multiagente, los pipelines de encuestas sintéticas y los flujos de trabajo de red-teaming automatizado.

El artículo "The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models" define el persona collapse como el análogo conductual del mode collapse en modelos generativos. Cuando se les solicita interpretar personas definidas en 26 dimensiones de identidad —incluidas edad, género, nacionalidad, orientación política y ocupación—, todos los modelos evaluados retuvieron sistemáticamente solo los atributos más salientes por estereotipo y descartaron el resto. Los agentes cuyas personas deberían divergir producen outputs casi idénticos.

Para cuantificar el colapso, los autores desarrollaron tres métricas a nivel poblacional aplicadas a una Behavioral Trait Matrix que codifica las respuestas de cada agente en todos los ítems conductuales. Coverage mide cuánto del espacio conductual ocupa la población simulada. Uniformity captura qué tan uniformemente se distribuyen los agentes en ese espacio en lugar de agruparse. Complexity mide si la dispersión es estructuralmente rica o proyectada en un subespacio de baja dimensión. Las comparaciones de referencia se obtuvieron de 2.058 respondentes humanos en el instrumento de personalidad BFI-44. En proyecciones t-SNE del espacio de personalidad de 44 dimensiones, los respondentes humanos se distribuían de forma difusa; las respuestas de Qwen3-32B se fragmentaron en clusters separados en lugar de llenar el espacio.

El colapso varía entre dimensiones y dominios. Un modelo puede parecer conductualmente diverso a lo largo de un eje de personalidad mientras es estructuralmente degenerado a lo largo de otro. Un modelo puede mostrar el mayor colapso en simulación de personalidad y la mayor diversidad en tareas de razonamiento moral. Esta inconsistencia hace que el colapso sea difícil de detectar con las verificaciones estándar de fidelidad por persona —que miden si un agente individual coincide con su etiqueta— porque esas verificaciones no evalúan la dispersión a nivel poblacional.

Los modelos que obtienen las puntuaciones más altas de fidelidad por persona producen consistentemente las poblaciones más estereotipadas en general. Los diagnósticos a nivel de ítem revelan por qué. Los modelos de alta fidelidad se fijan en los atributos demográficamente más salientes de un prompt de persona. Las respuestas individuales parecen precisas; la población se agrupa en torno a estereotipos gruesos en lugar de diferencias individuales detalladas. La variación conductual termina siguiendo arquetipos demográficos, no la intersección combinatoria de los 26 atributos especificados.

Para los equipos empresariales, tres flujos de trabajo presentan exposición directa. Los pipelines de generación de datos sintéticos que dependen de agentes LLM para producir personas de entrenamiento diversas están generando una distribución más estrecha de lo que implican sus especificaciones de persona —potencialmente introduciendo sesgos demográficos que no aflorarán en las auditorías estándar de calidad de datos. Los frameworks de red-teaming automatizado que asignan roles adversariales distintos a cohortes de agentes pueden estar convergiendo en una única superficie de ataque, dejando puntos ciegos que el enfoque de diversidad por diseño pretendía cubrir. La investigación de usuarios simulada y la modelización de mercado, cada vez más utilizadas para reducir costos en estudios de consumidores, enfrentan un problema de validez: los respondentes simulados no abarcan la variedad conductual de las poblaciones humanas reales.

Los investigadores han publicado su toolkit de diagnóstico y dataset para la autoauditoría de pipelines. No se propone ninguna corrección arquitectónica; los autores enmarcan el colapso como una limitación de la generación actual que la ingeniería de prompts no puede superar de manera confiable. Las métricas Coverage, Uniformity y Complexity proporcionan el primer estándar operacionalizable para auditorías conductuales a nivel poblacional —lo que significa que los equipos empresariales ya pueden medir el problema aunque todavía no puedan resolverlo.

Cualquier flujo de trabajo multiagente que trate la diversidad de personas como variable de control debe considerarse no validado hasta ser evaluado con estas métricas a nivel poblacional. La diversidad puede estar especificada; no está siendo simulada.

Sources

Researchers evaluated ten LLMs and identified Persona Collapse as a pervasive failure mode in multi-agent simulations
"Evaluating ten LLMs on personality simulation (BFI-44), moral reasoning, and self-introduction, we observe persona collapse along two axes: (1) Dimensions: a model can appear diverse on one axis yet structurally degenerate on another, and (2) Domains: the same model may collapse the most in personality yet be the most diverse in moral reasoning."
arxiv.org ↗
LLMs instructed to role-play personas defined by 26 distinct dimensions systematically retain only the most stereotypically salient attributes and discard the rest
"When instructed to role-play a persona defined by 26 distinct dimensions, LLMs systematically retain only the most stereotypically salient attributes for downstream tasks, completely discarding the rest."
arxiv.org ↗
Coverage measures how much of the behavioral space the simulated population occupies; Uniformity captures how evenly agents distribute; Complexity measures structural richness
"A structurally healthy simulated population should: (1) span the full distribution of human behavioral archetypes rather than over-sampling a modal region and neglecting the tails (Coverage) (2) distribute evenly across the behavioral space rather than collapsing into a few dense, degenerate clusters (Uniformity) (3) be genuinely high-dimensional rather than compressed onto a low-dimensional subspace (Complexity)."
arxiv.org ↗
Baseline comparisons used 2,058 human respondents on the BFI-44 personality instrument; in t-SNE projections Qwen3-32B responses fragmented into separated clusters rather than filling the space
"t-SNE projection of the BFI-44 personality instrument for 2,058 individuals. (a) Human respondents spread diffusely across the space. (b) When given persona prompts, Qwen3-32B responses fragment into separated clusters rather than filling the space."
arxiv.org ↗
Models achieving the highest per-persona fidelity consistently produce the most stereotyped populations
"Counter-intuitively, the models achieving the highest per-persona fidelity consistently produce the most stereotyped populations."
arxiv.org ↗
Item-level diagnostics reveal behavioral variation tracks coarse demographic stereotypes rather than fine-grained individual differences specified in each persona
"item-level diagnostics reveal that behavioral variation tracks coarse demographic stereotypes rather than the fine-grained individual differences specified in each persona."
arxiv.org ↗
Persona Collapse is defined as structural homogenization where agents converge into a narrow behavioral mode despite distinct assigned profiles
"We identify a pervasive failure mode we term Persona Collapse: agents each assigned a distinct profile nonetheless converge into a narrow behavioral mode, producing a homogeneous simulated population."
arxiv.org ↗
The researchers released a diagnostic toolkit and dataset to support population-level evaluation of LLMs
"We release our toolkit and data to support population-level evaluation of LLMs."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Persona Collapse Socava las Simulaciones LLM Multiagente en Diez Modelos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.