EN VIVO · MIÉ, 01 JUL 2026 --:--:-- ET
Edición Nº 71 GASTO TOTAL $14634.05 ARTÍCULOS HOY 10 TOKENS TOTAL 9.27B
aiexpert
En vivo
Research OpenAI lanza GeneBench-Pro; prueba el juicio de IA en 129 problemas genómicos multietapa; GPT-5.6 Sol alcanza 31,5% Chips Las naves espaciales ahora fusionan la gestión térmica y la telemetría basada en IA para monitoreo autónomo de salud Market Las empresas se arrepienten de despidos por IA y recontrata conforme los sistemas resultan incapaces de operar sin supervisión humana Market Model Context Protocol alcanza 97M descargas mensuales de SDK; 78% de los equipos de IA empresarial en producción Breaking Elastic abre código Atlas, sistema de memoria de agente con enfoque de ciencia cognitiva para contexto a largo plazo Breaking Databricks abre código Lakebase, Postgres sin servidor con separación de almacenamiento nativo de nube Breaking Google DeepMind envía Nano Banana 2 Lite, modelo de imagen más rápido a $0.034 por 1K imágenes Funding Exejecutivos de Meta y OpenAI buscan $400M para nuevo laboratorio de IA Aire Breaking Model Context Protocol Alcanza 97M Descargas de SDK Mensuales; Principales Proveedores Estandarizan MCP como Capa de Integración de Agentes Funding Aire, Nuevo Laboratorio de IA Respaldado por Alumni de Meta y OpenAI, Busca $400 Millones en Financiamiento Funding Omnea Lanza Fondo de Futuros Fundadores: Cheques de Seed de $250K para Empleados que se Convirtieron en Emprendedores Chips AMD Confirma Núcleos de Baja Potencia en Futuros Procesadores Zen, Siguiendo el Modelo de Arquitectura Heterogénea de Intel Market Pila de Inferencia NVIDIA Reduce Costos de Token hasta 5x en Blackwell en Un Mes Chips Kit de Agentes BioNeMo de NVIDIA se Integra con Claude Science de Anthropic para Flujos de Trabajo de Biología Acelerada Policy Trump Levanta Controles de Exportación en Modelos Fable 5 y Mythos 5 de Anthropic Breaking Google lanza Nano Banana 2 Lite ($0,034/1K imágenes, latencia de 4s) y API de vídeo Gemini Omni Flash Policy Corea del Sur anuncia megainversión de IA y chips de US$ 1T+, liderada por Samsung y SK Hynix hasta 2035 Chips G.Skill RAM AMD EXPO ULL alcanza $1.099; 57-79% prima sobre EXPO estándar para timings ajustados Funding OpenAI, Anthropic Archivan Confidencialmente para OPI; Carrera por Debut de 2026 en Valuaciones de $1T+ Breaking Cinco Investigadores de DeepMind Salen de Alphabet hacia Anthropic y OpenAI en Una Sola Semana Research OpenAI lanza GeneBench-Pro; prueba el juicio de IA en 129 problemas genómicos multietapa; GPT-5.6 Sol alcanza 31,5% Chips Las naves espaciales ahora fusionan la gestión térmica y la telemetría basada en IA para monitoreo autónomo de salud Market Las empresas se arrepienten de despidos por IA y recontrata conforme los sistemas resultan incapaces de operar sin supervisión humana Market Model Context Protocol alcanza 97M descargas mensuales de SDK; 78% de los equipos de IA empresarial en producción Breaking Elastic abre código Atlas, sistema de memoria de agente con enfoque de ciencia cognitiva para contexto a largo plazo Breaking Databricks abre código Lakebase, Postgres sin servidor con separación de almacenamiento nativo de nube Breaking Google DeepMind envía Nano Banana 2 Lite, modelo de imagen más rápido a $0.034 por 1K imágenes Funding Exejecutivos de Meta y OpenAI buscan $400M para nuevo laboratorio de IA Aire Breaking Model Context Protocol Alcanza 97M Descargas de SDK Mensuales; Principales Proveedores Estandarizan MCP como Capa de Integración de Agentes Funding Aire, Nuevo Laboratorio de IA Respaldado por Alumni de Meta y OpenAI, Busca $400 Millones en Financiamiento Funding Omnea Lanza Fondo de Futuros Fundadores: Cheques de Seed de $250K para Empleados que se Convirtieron en Emprendedores Chips AMD Confirma Núcleos de Baja Potencia en Futuros Procesadores Zen, Siguiendo el Modelo de Arquitectura Heterogénea de Intel Market Pila de Inferencia NVIDIA Reduce Costos de Token hasta 5x en Blackwell en Un Mes Chips Kit de Agentes BioNeMo de NVIDIA se Integra con Claude Science de Anthropic para Flujos de Trabajo de Biología Acelerada Policy Trump Levanta Controles de Exportación en Modelos Fable 5 y Mythos 5 de Anthropic Breaking Google lanza Nano Banana 2 Lite ($0,034/1K imágenes, latencia de 4s) y API de vídeo Gemini Omni Flash Policy Corea del Sur anuncia megainversión de IA y chips de US$ 1T+, liderada por Samsung y SK Hynix hasta 2035 Chips G.Skill RAM AMD EXPO ULL alcanza $1.099; 57-79% prima sobre EXPO estándar para timings ajustados Funding OpenAI, Anthropic Archivan Confidencialmente para OPI; Carrera por Debut de 2026 en Valuaciones de $1T+ Breaking Cinco Investigadores de DeepMind Salen de Alphabet hacia Anthropic y OpenAI en Una Sola Semana
Research

OpenAI lanza GeneBench-Pro; prueba el juicio de IA en 129 problemas genómicos multietapa; GPT-5.6 Sol alcanza 31,5%

<cite index="63-3,64-1">OpenAI lanzó GeneBench-Pro, un benchmark de 129 problemas en 10 dominios primarios y 21 subdominios que cubren genómica, biología cuantitativa y medicina traslacional. Cada problema proporciona a un agente un conjunto de datos realista y deliberadamente ruidoso y un estimando objetivo vinculado a una decisión científica o traslacional posterior.</cite> <cite index="64-2">GeneBench-Pro prueba lo que OpenAI llama 'research taste': la cadena de juicios sobre qué preguntas puede soportar un conjunto de datos, cuándo los diagnósticos iniciales deberían cambiar el modelo y cuándo un resultado está listo para decisión.</cite> <cite index="61-1">OpenAI envió 82 de los 129 problemas a expertos en dominio externos, incluidos estudiantes de posgrado, investigadores postdoctorales, científicos de la industria y profesores universitarios, quienes evaluaron el realismo de cada problema y si la respuesta objetivo era identificable.</cite>

<cite index="63-2">GPT-5.6 Sol alcanza una tasa de aprobación del 28,7% en el nivel máximo de razonamiento, y GPT-5.6 Sol Pro alcanza 31,5%; GPT-5.5 alcanza 12%, GPT-5.4 alcanza 8,9%, y Claude Opus 4.8 de Anthropic alcanza 16%.</cite> <cite index="64-3">El escalado de computación en tiempo de prueba muestra que en el nivel de razonamiento más bajo GPT-5.6 Sol puntúa en un solo dígito, y en el más alto resuelve aproximadamente seis veces más preguntas que GPT-5.2 mientras usa aproximadamente dos tercios de los tokens.</cite> <cite index="63-2">Los modelos frecuentemente completan porciones sustanciales del flujo de trabajo pero exhiben una brecha consistente entre notar y actuar: identifican señales diagnósticas locales pero no propagan las implicaciones a decisiones de análisis correspondientes, seleccionando estimadores incorrectos o persistiendo en caminos incorrectos inicialmente plausibles.</cite>

<cite index="61-3">Si los agentes pueden automatizar de forma confiable esta clase de análisis, podrían acelerar significativamente el descubrimiento científico. El factor limitante en la investigación genómica a escala de biobancos se está desplazando de la generación de datos a convertir la información en ideas procesables; los modelos que pueden realizar consistentemente análisis manejados por equipos de expertos humanos podrían transformar la investigación industrial acelerando el filtrado de hipótesis y el seguimiento de objetivos.</cite> Para equipos de biotech e investigadores farmacéuticos que evalúan herramientas de IA para la ciencia, GeneBench-Pro mide la capacidad que determina si un agente asiste al descubrimiento o produce con confianza respuestas incorrectas. El 60%+ de problemas por debajo de la tasa de aprobación del 20% señala amplio espacio para inversión antes de que los modelos saturen el benchmark.

Fuentes