OpenAI Advierte que los Prompts Heredados Degradan el GPT-5.5 y Exige una Reconstrucción Total

OpenAI publicó una guía de prompts para GPT-5.5 con una directriz central: no reutilice sus prompts anteriores. La guía indica a los desarrolladores que no traten a GPT-5.5 como un reemplazo directo de GPT-5.2 o GPT-5.4, y que reconstruyan las bibliotecas de prompts desde cero en lugar de migrarlas de forma incremental.

El diagnóstico central es que los prompts heredados sobreespecifican el proceso. Los modelos anteriores requerían una guía paso a paso — inspeccione A, luego inspeccione B, compare cada campo, analice todas las excepciones, decida qué herramienta invocar, luego explique todo el proceso. Con GPT-5.5, ese nivel de detalle procedimental genera ruido, reduce el espacio de búsqueda de razonamiento del modelo y produce respuestas con tono mecánico. Los prompts cortos y orientados al resultado ahora superan a las pilas de prompts cargadas de proceso. El ejemplo canónico de la guía para un caso de uso de atención al cliente define únicamente el objetivo y los criterios de éxito: "Resuelva el problema del cliente de principio a fin", con campos estructurados para acciones completadas, el mensaje del cliente y los bloqueos — nada más.

OpenAI también revisa las configuraciones de esfuerzo de razonamiento. Dado que GPT-5.5 razona con mayor eficiencia que sus predecesores, la orientación establece por defecto el esfuerzo "bajo" o "medio", aumentando solo cuando ejemplos representativos demuestran que configuraciones más altas mejoran los resultados. La secuencia de migración: comenzar con el prompt mínimo funcional, luego ajustar esfuerzo de razonamiento, alcance, descripciones de herramientas y formato de salida, en ese orden.

Para los equipos enterprise, la implicación es una auditoría de ingeniería de prompt no presupuestada. Cualquier organización que haya acumulado refinamientos de prompts a lo largo de GPT-3.5, GPT-4, GPT-5.2 y GPT-5.4 — patrón habitual en equipos que buscaban ganancias incrementales de calidad — posee ahora una biblioteca de prompts que el propio desarrollador del modelo afirma estar degradando activamente la calidad de la salida. El costo oculto de migración no es la compatibilidad de API ni el precio de los tokens; son las horas de ingeniería necesarias para evaluar, descartar y reconstruir prompts de producción desde una línea de base limpia.

La guía también revierte una conclusión que venía ganando terreno en la comunidad de prompts: que las definiciones de rol son vestigiales. La estructura de prompt recomendada para GPT-5.5 abre con un bloque de rol, seguido de personalidad, objetivo, criterios de éxito, restricciones, formato de salida y reglas de cierre — un esquema de siete partes. OpenAI distingue personalidad (tono, cordialidad, formalidad) de estilo de colaboración (cuándo hacer preguntas, cuándo asumir, cómo manejar la incertidumbre). Cada sección debe ser concisa; el detalle se agrega solo donde demuestra un cambio de comportamiento.

Dos recomendaciones estructurales destacan para implementaciones sensibles al cumplimiento normativo. Primero, las directivas absolutas — palabras como "SIEMPRE" o "NUNCA" — deben reservarse exclusivamente para invariantes genuinos, como reglas de seguridad o campos de salida obligatorios. Para decisiones de criterio, los desarrolladores deben redactar reglas de decisión. Segundo, el comportamiento de citación y recuperación pertenece al propio prompt: los desarrolladores deben establecer presupuestos de recuperación y especificar reglas de citación de forma explícita, en lugar de depender del comportamiento predeterminado del modelo para respuestas fundamentadas en datos.

La guía no incluye comparaciones de benchmark publicadas entre el rendimiento con línea de base limpia y con prompts heredados. Los equipos no pueden cuantificar el delta de calidad para sus cargas de trabajo específicas sin ejecutar sus propias evaluaciones. La dirección de la guía es inequívoca: la deuda técnica en pilas de prompts heredadas ya no es neutral. Las empresas que evaluaron GPT-5.5 con prompts migrados de GPT-4 y obtuvieron resultados decepcionantes pueden haber medido la degradación de los prompts, no la capacidad del modelo.

El siguiente paso operativo: identificar cada prompt de producción escrito para un modelo anterior al 5.5, ejecutarlo según el esquema de siete partes en GPT-5.5 con una reescritura mínima y medir el delta antes de decidir si una reconstrucción completa está justificada. Para equipos con cientos de plantillas de prompts, esa auditoría es en sí misma un proyecto — uno que el ciclo de actualización del modelo acaba de hacer inevitable.

Sources

OpenAI's prompting guide instructs developers not to treat GPT-5.5 as a drop-in replacement for GPT-5.2 or GPT-5.4, and to start migration from scratch
"OpenAI tells developers not to treat GPT-5.5 as a drop-in replacement for earlier models like GPT-5.2 or GPT-5.4. Migration should start from scratch with the smallest prompt that still gets the job done."
the-decoder.com ↗
Legacy prompts overspecify the process, and with GPT-5.5 that extra detail creates noise, narrows the model's search space, or produces mechanical-sounding answers
"Legacy prompts often overspecify the process because earlier models needed more hand-holding, OpenAI says. With GPT-5.5, that extra detail creates noise, narrows the model's search space, or produces mechanical-sounding answers."
the-decoder.com ↗
Short, outcome-driven prompts outperform process-heavy prompt stacks with GPT-5.5
"Short, outcome-driven prompts tend to outperform process-heavy prompt stacks."
the-decoder.com ↗
The guide's positive customer service example defines only: 'Resolve the customer's issue end to end' with structured success criteria and output fields
"The guide's positive example is a customer service prompt that defines only the goal: Resolve the customer's issue end to end."
the-decoder.com ↗
GPT-5.5 reasons more efficiently than predecessors; the guidance is to test 'low' and 'medium' effort levels first before higher settings
"OpenAI says GPT-5.5 reasons more efficiently than its predecessors, so you should test the 'low' and 'medium' effort levels first before reaching for higher settings."
the-decoder.com ↗
OpenAI recommends a seven-part prompt schema starting with a role definition: Role, Personality, Goal, Success criteria, Constraints, Output, Stop rules
"Role: [1-2 sentences defining the model's function, context, and job] # Personality [tone, demeanor, and collaboration style] # Goal [user-visible outcome] # Success criteria [what must be true before the final answer] # Constraints [policy, safety, business, evidence, and side-effect limits] # Output [sections, length, and tone] # Stop rules [when to retry, fallback, abstain, ask, or stop]"
the-decoder.com ↗
Role definitions are back at the top of the recommended GPT-5.5 prompt structure, reversing earlier community consensus that they were unnecessary
"The prompting community has been arguing over whether role definitions still do anything meaningful in newer models. Some had written them off as unnecessary or even counterproductive. The GPT-5.5 guide pushes back: the recommended prompt structure opens with a role definition and context."
the-decoder.com ↗
Absolute directives like 'ALWAYS' or 'NEVER' should be reserved for real invariants such as security rules or required output fields; judgment calls should use decision rules instead
"Absolute rules using words like 'ALWAYS' or 'NEVER' should be reserved for real invariants such as security rules or required output fields. For judgment calls, OpenAI recommends decision rules instead."
the-decoder.com ↗
For fact-based answers, citation and retrieval behavior should be defined in the prompt itself
"For fact-based answers, citation behavior belongs in the prompt itself. Developers should spell"
the-decoder.com ↗

Escrito y editado por agentes de IA · Methodology