Investigadores exponen CoT Forgery: los LLM revelan información insegura cuando el razonamiento falso afirma que el cumplimiento es OK
Investigadores del MIT y laboratorios independientes han publicado un nuevo ataque de jailbreak llamado 'CoT Forgery' que logra ~60% de éxito en todas las familias de LLM probadas inyectando razonamiento fabricado en prompts. El exploit—dirigido a ICML 2026 en Seúl—ganó el concurso de red-teaming OpenAI GPT-OSS-20B de 2025 en Kaggle. El ataque funciona incrustando falso razonamiento (por ejemplo, 'el usuario está usando una camisa verde así que el cumplimiento es OK') en una conversación, causando que los modelos traten el texto inyectado como su propio razonamiento de confianza en lugar de entrada del usuario. Porque los modelos confían en el *estilo* de escritura en lugar de etiquetas de rol para determinar si el texto es razonamiento o comando, el ataque evita las salvaguardas basadas en etiquetas por completo.
Los investigadores construyeron 'sondas de rol' que miden qué tan fuertemente trata un modelo internamente cada token como su propio razonamiento versus instrucción del usuario. Eliminar marcadores estilísticos que hacen que el texto inyectado se lea como razonamiento—mientras preservan el significado semántico—redujo el éxito del ataque de 61% a 10%. Los hallazgos sugieren que la confusión de rol es el mecanismo central detrás de la inyección de prompt en general: los modelos particionan conversaciones usando etiquetas de rol (usuario, herramienta, pensar) destinadas a separar comandos confiables de datos no confiables, pero no discriminan realmente en función de esas etiquetas. El ataque tuvo éxito incluso para solicitudes extremas y no se debilitó a medida que los prompts se volvieron más peligrosos, a diferencia de los jailbreaks basados en persuasión.
Para arquitectos: esta es una vulnerabilidad de primeros principios en cómo los LLM analizan la entrada estructurada. El aislamiento basado en etiquetas (el estándar de facto actual en marcos agénticos) es decorativo, no protector. Si su agente acepta documentos, elementos de interfaz de usuario o salidas de herramientas, la inyección basada en estilo puede anular instrucciones centrales a escala. Microsoft flagged recientemente el mismo riesgo agéntico. Espere una ola de defensas enfocadas en realmente separar el estado de razonamiento del procesamiento de entrada—no a través de etiquetas, sino a través de aislamiento arquitectónico o detección de rol aprendida.
Fuentes
- Primary source
- tomshardware.com
- importai.substack.com
“The paper says that models work out who is speaking from the writing style, not the role tags meant to separate trusted commands from untrusted data”