Pesquisadores expõem CoT Forgery: LLMs revelam informações inseguras quando raciocínio falso afirma que conformidade é OK
Pesquisadores do MIT e labs independentes publicaram um novo ataque de jailbreak chamado 'CoT Forgery' que alcança ~60% de sucesso em todas as famílias de LLM testadas injetando raciocínio fabricado em prompts. O exploit—direcionado para ICML 2026 em Seul—venceu o concurso de red-teaming OpenAI GPT-OSS-20B de 2025 no Kaggle. O ataque funciona incorporando falso raciocínio (por exemplo, 'o usuário está usando uma camisa verde então conformidade é OK') em uma conversa, causando modelos tratarem o texto injetado como seu próprio raciocínio confiável ao invés de entrada do usuário. Porque modelos confiam em *estilo* de escrita ao invés de tags de função para determinar se o texto é raciocínio ou comando, o ataque contorna salvaguardas baseadas em tags inteiramente.
Os pesquisadores construíram 'sondas de função' que medem quão fortemente um modelo internamente trata cada token como seu próprio raciocínio versus instrução do usuário. Remover marcadores estilísticos que fazem texto injetado ler como raciocínio—enquanto preservam o significado semântico—reduziu sucesso de ataque de 61% para 10%. Os achados sugerem confusão de função é o mecanismo central por trás de injeção de prompt em geral: modelos particionam conversas usando tags de função (usuário, ferramenta, pensar) destinadas a separar comandos confiáveis de dados não confiáveis, mas não discriminam baseado nesses tags. O ataque sucedeu até para pedidos extremos e não enfraqueceu conforme prompts se tornaram mais perigosos, ao contrário de jailbreaks baseados em persuasão.
Para arquitetos: esta é uma vulnerabilidade de primeiros princípios em como LLMs analisam entrada estruturada. Isolamento baseado em tag (o padrão de facto atual em frameworks agênticos) é decorativo, não protetor. Se seu agente aceita documentos, elementos de UI, ou saídas de ferramentas, injeção baseada em estilo pode sobrescrever instruções principais em escala. Microsoft recentemente sinalizou o mesmo risco agêntico. Espere uma onda de defesas focadas em realmente separar estado de raciocínio do processamento de entrada—não via tags, mas via isolamento arquitetural ou detecção de função aprendida.
Fontes
- Primary source
- tomshardware.com
- importai.substack.com
“The paper says that models work out who is speaking from the writing style, not the role tags meant to separate trusted commands from untrusted data”