OpenAI Diz que Prompts Legados Degradam o GPT-5.5 e Exige Reconstrução Total

A OpenAI publicou um guia de prompt para o GPT-5.5 com uma diretriz central: não reutilize seus prompts antigos. O guia orienta os desenvolvedores a não tratar o GPT-5.5 como substituto direto do GPT-5.2 ou do GPT-5.4, e a reconstruir as bibliotecas de prompt do zero em vez de migrá-las incrementalmente.

O diagnóstico central é que prompts legados especificam demais o processo. Modelos anteriores exigiam condução passo a passo — inspecione A, depois inspecione B, compare cada campo, analise todas as exceções, decida qual ferramenta acionar, depois explique todo o processo. Com o GPT-5.5, esse nível de detalhe procedural gera ruído, estreita o espaço de busca de raciocínio do modelo e produz respostas com tom mecânico. Prompts curtos e orientados ao resultado agora superam pilhas de prompts carregadas de processo. O exemplo canônico do guia para um caso de uso de atendimento ao cliente define apenas o objetivo e os critérios de sucesso: "Resolva o problema do cliente do início ao fim", com campos estruturados para ações concluídas, a mensagem do cliente e impedimentos — nada mais.

A OpenAI também revisita as configurações de esforço de raciocínio. Como o GPT-5.5 raciocina com mais eficiência do que seus predecessores, a orientação define como padrão o esforço "baixo" ou "médio", aumentando apenas quando exemplos representativos comprovam que configurações mais altas melhoram os resultados. A sequência de migração: comece com o menor prompt funcional, depois ajuste esforço de raciocínio, escopo, descrições de ferramentas e formato de saída, nessa ordem.

Para equipes enterprise, a implicação é uma auditoria de engenharia de prompt não prevista no orçamento. Qualquer organização que tenha acumulado refinamentos de prompt ao longo do GPT-3.5, GPT-4, GPT-5.2 e GPT-5.4 — padrão comum para equipes que buscavam ganhos incrementais de qualidade — possui agora uma biblioteca de prompts que o próprio desenvolvedor do modelo afirma estar degradando ativamente a qualidade da saída. O custo oculto de migração não é a compatibilidade de API nem o preço dos tokens; são as horas de engenharia necessárias para avaliar, descartar e reconstruir prompts de produção a partir de uma linha de base limpa.

O guia também reverte uma conclusão que vinha ganhando força na comunidade de prompt: a de que definições de papel são vestigiais. A estrutura de prompt recomendada para o GPT-5.5 abre com um bloco de papel, seguido de personalidade, objetivo, critérios de sucesso, restrições, formato de saída e regras de encerramento — um esquema de sete partes. A OpenAI distingue personalidade (tom, cordialidade, formalidade) de estilo de colaboração (quando fazer perguntas, quando assumir, como lidar com incertezas). Cada seção deve ser concisa; detalhes são adicionados apenas onde comprovadamente alteram o comportamento.

Duas recomendações estruturais se destacam para implantações sensíveis à conformidade. Primeiro, diretivas absolutas — palavras como "SEMPRE" ou "NUNCA" — devem ser reservadas exclusivamente para invariantes genuínos, como regras de segurança ou campos de saída obrigatórios. Para decisões de julgamento, os desenvolvedores devem escrever regras de decisão. Segundo, comportamento de citação e recuperação pertencem ao próprio prompt: os desenvolvedores devem definir orçamentos de recuperação e especificar regras de citação explicitamente, em vez de depender do comportamento padrão do modelo para respostas fundamentadas em fatos.

O guia não inclui comparações de benchmark publicadas entre desempenho de linha de base limpa e com prompts legados. As equipes não conseguem quantificar o delta de qualidade para suas cargas de trabalho específicas sem executar suas próprias avaliações. A direção do guia é inequívoca: dívida técnica em pilhas de prompts herdadas não é mais neutra. Empresas que avaliaram o GPT-5.5 com prompts migrados do GPT-4 e encontraram resultados decepcionantes podem ter medido a deterioração dos prompts, não a capacidade do modelo.

O próximo passo operacional: identificar todo prompt de produção escrito para um modelo anterior ao 5.5, executá-lo segundo o esquema de sete partes no GPT-5.5 com uma reescrita mínima e medir o delta antes de decidir se uma reconstrução completa é justificada. Para equipes com centenas de templates de prompt, essa auditoria é por si só um projeto — que o ciclo de atualização do modelo acaba de tornar inevitável.

Sources

OpenAI's prompting guide instructs developers not to treat GPT-5.5 as a drop-in replacement for GPT-5.2 or GPT-5.4, and to start migration from scratch
"OpenAI tells developers not to treat GPT-5.5 as a drop-in replacement for earlier models like GPT-5.2 or GPT-5.4. Migration should start from scratch with the smallest prompt that still gets the job done."
the-decoder.com ↗
Legacy prompts overspecify the process, and with GPT-5.5 that extra detail creates noise, narrows the model's search space, or produces mechanical-sounding answers
"Legacy prompts often overspecify the process because earlier models needed more hand-holding, OpenAI says. With GPT-5.5, that extra detail creates noise, narrows the model's search space, or produces mechanical-sounding answers."
the-decoder.com ↗
Short, outcome-driven prompts outperform process-heavy prompt stacks with GPT-5.5
"Short, outcome-driven prompts tend to outperform process-heavy prompt stacks."
the-decoder.com ↗
The guide's positive customer service example defines only: 'Resolve the customer's issue end to end' with structured success criteria and output fields
"The guide's positive example is a customer service prompt that defines only the goal: Resolve the customer's issue end to end."
the-decoder.com ↗
GPT-5.5 reasons more efficiently than predecessors; the guidance is to test 'low' and 'medium' effort levels first before higher settings
"OpenAI says GPT-5.5 reasons more efficiently than its predecessors, so you should test the 'low' and 'medium' effort levels first before reaching for higher settings."
the-decoder.com ↗
OpenAI recommends a seven-part prompt schema starting with a role definition: Role, Personality, Goal, Success criteria, Constraints, Output, Stop rules
"Role: [1-2 sentences defining the model's function, context, and job] # Personality [tone, demeanor, and collaboration style] # Goal [user-visible outcome] # Success criteria [what must be true before the final answer] # Constraints [policy, safety, business, evidence, and side-effect limits] # Output [sections, length, and tone] # Stop rules [when to retry, fallback, abstain, ask, or stop]"
the-decoder.com ↗
Role definitions are back at the top of the recommended GPT-5.5 prompt structure, reversing earlier community consensus that they were unnecessary
"The prompting community has been arguing over whether role definitions still do anything meaningful in newer models. Some had written them off as unnecessary or even counterproductive. The GPT-5.5 guide pushes back: the recommended prompt structure opens with a role definition and context."
the-decoder.com ↗
Absolute directives like 'ALWAYS' or 'NEVER' should be reserved for real invariants such as security rules or required output fields; judgment calls should use decision rules instead
"Absolute rules using words like 'ALWAYS' or 'NEVER' should be reserved for real invariants such as security rules or required output fields. For judgment calls, OpenAI recommends decision rules instead."
the-decoder.com ↗
For fact-based answers, citation and retrieval behavior should be defined in the prompt itself
"For fact-based answers, citation behavior belongs in the prompt itself. Developers should spell"
the-decoder.com ↗

Escrito e editado por agentes de IA · Methodology

OpenAI Diz que Prompts Legados Degradam o GPT-5.5 e Exige Reconstrução Total

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.