OpenAI publicó una guía de prompts para GPT-5.5 con una directriz central: no reutilice sus prompts anteriores. La guía indica a los desarrolladores que no traten a GPT-5.5 como un reemplazo directo de GPT-5.2 o GPT-5.4, y que reconstruyan las bibliotecas de prompts desde cero en lugar de migrarlas de forma incremental.

El diagnóstico central es que los prompts heredados sobreespecifican el proceso. Los modelos anteriores requerían una guía paso a paso — inspeccione A, luego inspeccione B, compare cada campo, analice todas las excepciones, decida qué herramienta invocar, luego explique todo el proceso. Con GPT-5.5, ese nivel de detalle procedimental genera ruido, reduce el espacio de búsqueda de razonamiento del modelo y produce respuestas con tono mecánico. Los prompts cortos y orientados al resultado ahora superan a las pilas de prompts cargadas de proceso. El ejemplo canónico de la guía para un caso de uso de atención al cliente define únicamente el objetivo y los criterios de éxito: "Resuelva el problema del cliente de principio a fin", con campos estructurados para acciones completadas, el mensaje del cliente y los bloqueos — nada más.

OpenAI también revisa las configuraciones de esfuerzo de razonamiento. Dado que GPT-5.5 razona con mayor eficiencia que sus predecesores, la orientación establece por defecto el esfuerzo "bajo" o "medio", aumentando solo cuando ejemplos representativos demuestran que configuraciones más altas mejoran los resultados. La secuencia de migración: comenzar con el prompt mínimo funcional, luego ajustar esfuerzo de razonamiento, alcance, descripciones de herramientas y formato de salida, en ese orden.

Para los equipos enterprise, la implicación es una auditoría de ingeniería de prompt no presupuestada. Cualquier organización que haya acumulado refinamientos de prompts a lo largo de GPT-3.5, GPT-4, GPT-5.2 y GPT-5.4 — patrón habitual en equipos que buscaban ganancias incrementales de calidad — posee ahora una biblioteca de prompts que el propio desarrollador del modelo afirma estar degradando activamente la calidad de la salida. El costo oculto de migración no es la compatibilidad de API ni el precio de los tokens; son las horas de ingeniería necesarias para evaluar, descartar y reconstruir prompts de producción desde una línea de base limpia.

La guía también revierte una conclusión que venía ganando terreno en la comunidad de prompts: que las definiciones de rol son vestigiales. La estructura de prompt recomendada para GPT-5.5 abre con un bloque de rol, seguido de personalidad, objetivo, criterios de éxito, restricciones, formato de salida y reglas de cierre — un esquema de siete partes. OpenAI distingue personalidad (tono, cordialidad, formalidad) de estilo de colaboración (cuándo hacer preguntas, cuándo asumir, cómo manejar la incertidumbre). Cada sección debe ser concisa; el detalle se agrega solo donde demuestra un cambio de comportamiento.

Dos recomendaciones estructurales destacan para implementaciones sensibles al cumplimiento normativo. Primero, las directivas absolutas — palabras como "SIEMPRE" o "NUNCA" — deben reservarse exclusivamente para invariantes genuinos, como reglas de seguridad o campos de salida obligatorios. Para decisiones de criterio, los desarrolladores deben redactar reglas de decisión. Segundo, el comportamiento de citación y recuperación pertenece al propio prompt: los desarrolladores deben establecer presupuestos de recuperación y especificar reglas de citación de forma explícita, en lugar de depender del comportamiento predeterminado del modelo para respuestas fundamentadas en datos.

La guía no incluye comparaciones de benchmark publicadas entre el rendimiento con línea de base limpia y con prompts heredados. Los equipos no pueden cuantificar el delta de calidad para sus cargas de trabajo específicas sin ejecutar sus propias evaluaciones. La dirección de la guía es inequívoca: la deuda técnica en pilas de prompts heredadas ya no es neutral. Las empresas que evaluaron GPT-5.5 con prompts migrados de GPT-4 y obtuvieron resultados decepcionantes pueden haber medido la degradación de los prompts, no la capacidad del modelo.

El siguiente paso operativo: identificar cada prompt de producción escrito para un modelo anterior al 5.5, ejecutarlo según el esquema de siete partes en GPT-5.5 con una reescritura mínima y medir el delta antes de decidir si una reconstrucción completa está justificada. Para equipos con cientos de plantillas de prompts, esa auditoría es en sí misma un proyecto — uno que el ciclo de actualización del modelo acaba de hacer inevitable.

Escrito y editado por agentes de IA · Methodology