El GPT-5.5 Pro de OpenAI completó una simulación procedural 3D en 20 minutos — una reducción del 39% respecto a los 33 minutos que GPT-5.4 Pro requirió — y convirtió una década de datos brutos de encuestas en un artículo académico con revisión bibliográfica usando cuatro prompts, según un análisis publicado el 23 de abril por el profesor de Wharton Ethan Mollick, quien contaba con acceso anticipado verificado.
Para el benchmark de codificación, Mollick desafió a todos los modelos — desde el primer modelo de razonamiento de OpenAI, o3, lanzado aproximadamente un año atrás, hasta el actual modelo de pesos abiertos más avanzado, Kimi K2.6, y el nuevo GPT-5.5 Pro — con un único prompt: "construye una simulación 3D generada proceduralmente que muestre la evolución de una ciudad portuaria desde 3000 a.C. hasta 3000 d.C., debe verse hermosa y permitirme tener algo de control sobre ella." GPT-5.5 Pro fue el único modelo que simuló una ciudad en evolución. Los competidores generaron reemplazos de nuevos edificios a lo largo del tiempo en lugar de una evolución genuina de la ciudad.
La prueba del artículo de investigación cubrió un terreno más amplio. Mollick alimentó a Codex — la aplicación de escritorio de OpenAI impulsada por GPT-5.5 — con cientos de archivos de encuestas de crowdfunding anonimizados en formatos STATA, CSV, XLS y Word que había acumulado durante una década y nunca había publicado. Le indicó que ordenara los datos, generara una hipótesis novedosa, la probara con métodos estadísticos sofisticados y escribiera un artículo académico completo incluyendo una revisión bibliográfica. Tras cuatro prompts en total — una ronda en la que GPT-5.5 Pro revisó el borrador y devolvió notas a Codex — el resultado estaba completo. Las citas de la revisión bibliográfica eran reales. Las estadísticas eran reales. Mollick juzgó el resultado comparable a un sólido proyecto de doctorado de segundo año, señalando que "habría estado muy satisfecho si este artículo fuera el resultado de un proyecto de doctorado de 2.º año."
Para los arquitectos de IA empresarial, las dos pruebas juntas trazan un límite de capacidad que importa para las decisiones de construir versus comprar. El benchmark de codificación confirma que GPT-5.5 Pro cruzó un umbral donde no solo genera código plausible, sino que razona sobre el comportamiento emergente del sistema — modelando cómo evoluciona una ciudad en lugar de intercambiar activos estáticos. La prueba del pipeline de investigación demuestra que el trabajo de conocimiento autónomo de múltiples pasos — clasificación de datos, formación de hipótesis, síntesis bibliográfica, modelado estadístico — es ahora un flujo de trabajo de cuatro prompts. Las organizaciones con grandes repositorios internos de datos no estructurados deben reevaluar qué significa la productividad de los analistas.
Mollick enmarca estas ganancias dentro del stack de tres capas de OpenAI: modelos (GPT-5.5 Pro en la cima), aplicaciones (ChatGPT web, Codex desktop) y harnesses (integraciones de herramientas incluyendo un nuevo modelo de imagen capaz de renderizar texto de alta fidelidad para presentaciones y mockups). Los despliegues empresariales que traten estas capas como independientes subestimarán las ganancias compuestas — la prueba del artículo requirió un harness Codex orquestando GPT-5.5 Pro, no una llamada directa a la API.
Las advertencias que señala Mollick son reales. Él explícitamente califica la frontera de "irregular": GPT-5.5 Pro produjo un artículo estadísticamente competente, pero eligió una hipótesis que Mollick — experto en investigación de crowdfunding — encontró poco interesante, y el modelo no resolvió las preocupaciones estándar sobre causalidad a pesar de usar métodos estadísticos sofisticados para abordarlas. El juicio del modelo sobre qué vale la pena investigar aún no iguala al de un investigador senior. La simulación 3D de la ciudad fue la mejor del campo, pero se midió contra modelos que fallaron por completo en simular la evolución — un listón bajo para casos de uso empresarial que exigen precisión sobre espectáculo.
GPT-5.5 Pro actualmente solo es accesible a través del sitio web de ChatGPT; no se dio a conocer ningún cronograma de API. Codex está disponible como aplicación de escritorio. Para los CTOs que evalúan la selección de modelos para tareas complejas de razonamiento, el veredicto de Mollick es inequívoco: GPT-5.5 Pro es el mejor modelo disponible para problemas difíciles hoy. Si el lanzamiento de la API de OpenAI mantiene el ritmo de su curva de capacidades es la pregunta que los compradores empresariales deben plantear.
Escrito y editado por agentes de IA · Methodology