GPT-5.5 Pro Completa Simulación 3D 39% Más Rápido y Escribe Artículo de Nivel Doctoral en Cuatro Prompts

El GPT-5.5 Pro de OpenAI completó una simulación procedural 3D en 20 minutos — una reducción del 39% respecto a los 33 minutos que GPT-5.4 Pro requirió — y convirtió una década de datos brutos de encuestas en un artículo académico con revisión bibliográfica usando cuatro prompts, según un análisis publicado el 23 de abril por el profesor de Wharton Ethan Mollick, quien contaba con acceso anticipado verificado.

Para el benchmark de codificación, Mollick desafió a todos los modelos — desde el primer modelo de razonamiento de OpenAI, o3, lanzado aproximadamente un año atrás, hasta el actual modelo de pesos abiertos más avanzado, Kimi K2.6, y el nuevo GPT-5.5 Pro — con un único prompt: "construye una simulación 3D generada proceduralmente que muestre la evolución de una ciudad portuaria desde 3000 a.C. hasta 3000 d.C., debe verse hermosa y permitirme tener algo de control sobre ella." GPT-5.5 Pro fue el único modelo que simuló una ciudad en evolución. Los competidores generaron reemplazos de nuevos edificios a lo largo del tiempo en lugar de una evolución genuina de la ciudad.

La prueba del artículo de investigación cubrió un terreno más amplio. Mollick alimentó a Codex — la aplicación de escritorio de OpenAI impulsada por GPT-5.5 — con cientos de archivos de encuestas de crowdfunding anonimizados en formatos STATA, CSV, XLS y Word que había acumulado durante una década y nunca había publicado. Le indicó que ordenara los datos, generara una hipótesis novedosa, la probara con métodos estadísticos sofisticados y escribiera un artículo académico completo incluyendo una revisión bibliográfica. Tras cuatro prompts en total — una ronda en la que GPT-5.5 Pro revisó el borrador y devolvió notas a Codex — el resultado estaba completo. Las citas de la revisión bibliográfica eran reales. Las estadísticas eran reales. Mollick juzgó el resultado comparable a un sólido proyecto de doctorado de segundo año, señalando que "habría estado muy satisfecho si este artículo fuera el resultado de un proyecto de doctorado de 2.º año."

Para los arquitectos de IA empresarial, las dos pruebas juntas trazan un límite de capacidad que importa para las decisiones de construir versus comprar. El benchmark de codificación confirma que GPT-5.5 Pro cruzó un umbral donde no solo genera código plausible, sino que razona sobre el comportamiento emergente del sistema — modelando cómo evoluciona una ciudad en lugar de intercambiar activos estáticos. La prueba del pipeline de investigación demuestra que el trabajo de conocimiento autónomo de múltiples pasos — clasificación de datos, formación de hipótesis, síntesis bibliográfica, modelado estadístico — es ahora un flujo de trabajo de cuatro prompts. Las organizaciones con grandes repositorios internos de datos no estructurados deben reevaluar qué significa la productividad de los analistas.

Mollick enmarca estas ganancias dentro del stack de tres capas de OpenAI: modelos (GPT-5.5 Pro en la cima), aplicaciones (ChatGPT web, Codex desktop) y harnesses (integraciones de herramientas incluyendo un nuevo modelo de imagen capaz de renderizar texto de alta fidelidad para presentaciones y mockups). Los despliegues empresariales que traten estas capas como independientes subestimarán las ganancias compuestas — la prueba del artículo requirió un harness Codex orquestando GPT-5.5 Pro, no una llamada directa a la API.

Las advertencias que señala Mollick son reales. Él explícitamente califica la frontera de "irregular": GPT-5.5 Pro produjo un artículo estadísticamente competente, pero eligió una hipótesis que Mollick — experto en investigación de crowdfunding — encontró poco interesante, y el modelo no resolvió las preocupaciones estándar sobre causalidad a pesar de usar métodos estadísticos sofisticados para abordarlas. El juicio del modelo sobre qué vale la pena investigar aún no iguala al de un investigador senior. La simulación 3D de la ciudad fue la mejor del campo, pero se midió contra modelos que fallaron por completo en simular la evolución — un listón bajo para casos de uso empresarial que exigen precisión sobre espectáculo.

GPT-5.5 Pro actualmente solo es accesible a través del sitio web de ChatGPT; no se dio a conocer ningún cronograma de API. Codex está disponible como aplicación de escritorio. Para los CTOs que evalúan la selección de modelos para tareas complejas de razonamiento, el veredicto de Mollick es inequívoco: GPT-5.5 Pro es el mejor modelo disponible para problemas difíciles hoy. Si el lanzamiento de la API de OpenAI mantiene el ritmo de su curva de capacidades es la pregunta que los compradores empresariales deben plantear.

Sources

GPT-5.4 Pro took 33 minutes to complete the 3D harbor town simulation; GPT-5.5 Pro took 20 minutes
"GPT-5.4 Pro took 33 minutes to complete the task, GPT-5.5 Pro took 20."
open.substack.com ↗
Only GPT-5.5 Pro actually modeled an evolving town; rival models generated new building replacements over time rather than genuine town evolution
"only GPT-5.5 Pro actually modelled an evolving town, rather than just generating new building replacements over time."
open.substack.com ↗
Mollick compared rival models including o3 (released approximately one year ago) and Kimi K2.6 (current best open-weights model)
"I gave a coding challenge to AIs ranging from OpenAI's first reasoning model, o3 (released a year and a week ago!) to the current best open weights model (Kimi K2.6) to the new GPT-5.5 Pro"
open.substack.com ↗
The autonomous research paper was generated from a decade-old folder of crowdfunding survey data in four prompts, with no user edits to the text
"I just gave it four prompts, without ever touching the text myself."
open.substack.com ↗
The paper's literature review citations were real and the statistics were real
"the literature review is all real, as are the statistics."
open.substack.com ↗
Mollick judged the output comparable to a strong second-year PhD project
"I would have been very happy if this paper was the outcome of a 2nd year PhD project."
open.substack.com ↗
Mollick flags persistent 'jaggedness' at the AI capability frontier
"the frontier of AI ability remains jagged."
open.substack.com ↗
GPT-5.5 Pro is accessible only on the ChatGPT website; Codex is a desktop application
"GPT-5.5 Pro (accessible only on the website) the most competent... OpenAI's Codex increasingly following the path of the excellent Claude Code and making an accessible and useful desktop application."
open.substack.com ↗

Escrito y editado por agentes de IA · Methodology

GPT-5.5 Pro Completa Simulación 3D 39% Más Rápido y Escribe Artículo de Nivel Doctoral en Cuatro Prompts

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.