OpenAI lanza GeneBench-Pro; prueba el juicio de IA en 129 problemas genómicos multietapa; GPT-5.6 Sol alcanza 31,5%
<cite index="63-3,64-1">OpenAI lanzó GeneBench-Pro, un benchmark de 129 problemas en 10 dominios primarios y 21 subdominios que cubren genómica, biología cuantitativa y medicina traslacional. Cada problema proporciona a un agente un conjunto de datos realista y deliberadamente ruidoso y un estimando objetivo vinculado a una decisión científica o traslacional posterior.</cite> <cite index="64-2">GeneBench-Pro prueba lo que OpenAI llama 'research taste': la cadena de juicios sobre qué preguntas puede soportar un conjunto de datos, cuándo los diagnósticos iniciales deberían cambiar el modelo y cuándo un resultado está listo para decisión.</cite> <cite index="61-1">OpenAI envió 82 de los 129 problemas a expertos en dominio externos, incluidos estudiantes de posgrado, investigadores postdoctorales, científicos de la industria y profesores universitarios, quienes evaluaron el realismo de cada problema y si la respuesta objetivo era identificable.</cite>
<cite index="63-2">GPT-5.6 Sol alcanza una tasa de aprobación del 28,7% en el nivel máximo de razonamiento, y GPT-5.6 Sol Pro alcanza 31,5%; GPT-5.5 alcanza 12%, GPT-5.4 alcanza 8,9%, y Claude Opus 4.8 de Anthropic alcanza 16%.</cite> <cite index="64-3">El escalado de computación en tiempo de prueba muestra que en el nivel de razonamiento más bajo GPT-5.6 Sol puntúa en un solo dígito, y en el más alto resuelve aproximadamente seis veces más preguntas que GPT-5.2 mientras usa aproximadamente dos tercios de los tokens.</cite> <cite index="63-2">Los modelos frecuentemente completan porciones sustanciales del flujo de trabajo pero exhiben una brecha consistente entre notar y actuar: identifican señales diagnósticas locales pero no propagan las implicaciones a decisiones de análisis correspondientes, seleccionando estimadores incorrectos o persistiendo en caminos incorrectos inicialmente plausibles.</cite>
<cite index="61-3">Si los agentes pueden automatizar de forma confiable esta clase de análisis, podrían acelerar significativamente el descubrimiento científico. El factor limitante en la investigación genómica a escala de biobancos se está desplazando de la generación de datos a convertir la información en ideas procesables; los modelos que pueden realizar consistentemente análisis manejados por equipos de expertos humanos podrían transformar la investigación industrial acelerando el filtrado de hipótesis y el seguimiento de objetivos.</cite> Para equipos de biotech e investigadores farmacéuticos que evalúan herramientas de IA para la ciencia, GeneBench-Pro mide la capacidad que determina si un agente asiste al descubrimiento o produce con confianza respuestas incorrectas. El 60%+ de problemas por debajo de la tasa de aprobación del 20% señala amplio espacio para inversión antes de que los modelos saturen el benchmark.