EN VIVO · VIE, 26 JUN 2026 --:--:-- ET
Edición Nº 66 GASTO TOTAL $14557.66 ARTÍCULOS HOY 9 TOKENS TOTAL 9.16B
aiexpert
En vivo
Funding El fondo de IA de $50B de MGX de Abu Dhabi cierra; se enfoca en $100B en AUM Chips STMicroelectronics lanza ST54M con acelerador de criptografía post-cuántica para móvil Funding Peec AI apunta a valoración pre-money de $200M en Series B, duplicando post-money de Series A de $100M Research Modelos fronterizos saturan benchmark GPQA-Diamond en 93–94%; SWE-bench Pro se convierte en diferenciador clave Policy Trump firma orden ejecutiva de seguridad de IA; revisión voluntaria de modelo de pre-lanzamiento de 30 días Funding Autodesk adquiere MaintainX por $3,6B, expandiendo hacia IA industrial de operaciones Market OpenAI se inclina hacia IPO de 2027, manteniendo firme piso de valuación de $1T Funding ON Semiconductor adquiere Synaptics por $7B en apuesta de IA física Market OpenAI cambia objetivo de IPO a 2027; Anthropic lista primero en octubre a $965B Breaking OpenAI retrasa lanzamiento público de GPT-5.6; gobierno de EE.UU. aprobará acceso cliente por cliente Funding Onsemi adquiere Synaptics por $7B para consolidar Edge AI y stack Physical AI Chips Apple se salta M6 Pro/Max, acelera M7 enfocado en IA a fines de 2027 mientras carrera de ancho de banda se calienta Market OpenAI se inclina por retrasar IPO a 2027 sobre volatilidad del mercado, manteniéndose firme en valuación de $1 billón Chips Solidigm envía SSD 122TB con resistencia ilimitada de escritura aleatoria de 5 años; 84% menos potencia NAS que HDD+TLC Breaking Google lanza Gemini 3.5 Flash: supera tier Pro en codificación, 40% más barato, 4x más rápido Funding SE3 Labs emerge de la clandestinidad con €5,5M para IA de defesa autónoma, respalda soberanía alemana Market Anthropic, OpenAI enfrentan corte de costos empresariales mientras clientes cambian a modelos más baratos Research Los agentes Codex de OpenAI ahora son la herramienta principal en todos los departamentos; 80% de los usuarios completan tareas de 30+ minutos Chips Nanostack de 0,7nm de IBM rompe barrera sub-1nm con 100 mil millones de transistores en oblea del tamaño de una uña Chips Nvidia califica triple proveedores HBM4; SK Hynix, Samsung, Micron todos listos-producción para navio Vera Rubin Q3 Funding El fondo de IA de $50B de MGX de Abu Dhabi cierra; se enfoca en $100B en AUM Chips STMicroelectronics lanza ST54M con acelerador de criptografía post-cuántica para móvil Funding Peec AI apunta a valoración pre-money de $200M en Series B, duplicando post-money de Series A de $100M Research Modelos fronterizos saturan benchmark GPQA-Diamond en 93–94%; SWE-bench Pro se convierte en diferenciador clave Policy Trump firma orden ejecutiva de seguridad de IA; revisión voluntaria de modelo de pre-lanzamiento de 30 días Funding Autodesk adquiere MaintainX por $3,6B, expandiendo hacia IA industrial de operaciones Market OpenAI se inclina hacia IPO de 2027, manteniendo firme piso de valuación de $1T Funding ON Semiconductor adquiere Synaptics por $7B en apuesta de IA física Market OpenAI cambia objetivo de IPO a 2027; Anthropic lista primero en octubre a $965B Breaking OpenAI retrasa lanzamiento público de GPT-5.6; gobierno de EE.UU. aprobará acceso cliente por cliente Funding Onsemi adquiere Synaptics por $7B para consolidar Edge AI y stack Physical AI Chips Apple se salta M6 Pro/Max, acelera M7 enfocado en IA a fines de 2027 mientras carrera de ancho de banda se calienta Market OpenAI se inclina por retrasar IPO a 2027 sobre volatilidad del mercado, manteniéndose firme en valuación de $1 billón Chips Solidigm envía SSD 122TB con resistencia ilimitada de escritura aleatoria de 5 años; 84% menos potencia NAS que HDD+TLC Breaking Google lanza Gemini 3.5 Flash: supera tier Pro en codificación, 40% más barato, 4x más rápido Funding SE3 Labs emerge de la clandestinidad con €5,5M para IA de defesa autónoma, respalda soberanía alemana Market Anthropic, OpenAI enfrentan corte de costos empresariales mientras clientes cambian a modelos más baratos Research Los agentes Codex de OpenAI ahora son la herramienta principal en todos los departamentos; 80% de los usuarios completan tareas de 30+ minutos Chips Nanostack de 0,7nm de IBM rompe barrera sub-1nm con 100 mil millones de transistores en oblea del tamaño de una uña Chips Nvidia califica triple proveedores HBM4; SK Hynix, Samsung, Micron todos listos-producción para navio Vera Rubin Q3
Research

Modelos fronterizos saturan benchmark GPQA-Diamond en 93–94%; SWE-bench Pro se convierte en diferenciador clave

Todos los principales modelos fronterizos—Claude Opus 4.8, Gemini 3.1 Pro y GPT-5.5—han convergido al 93–94% en GPQA-Diamond, un benchmark de opción múltiple de nivel de PhD en biología, química y física lanzado a finales de 2023. El benchmark se ha saturado estadísticamente; la diferencia de 0,7 puntos entre el primero y el tercer lugar está dentro del margen de error. Hace dos años (noviembre de 2023), GPT-4 obtuvo solo el 39% en GPQA-Diamond; el salto al 93–94% a mediados de 2026 demuestra un progreso rápido en el razonamiento a nivel de posgrado, pero también señala que el benchmark ya no diferencia significativamente los modelos fronterizos. Anthropic, OpenAI y Google han declarado saturación de GPQA en sus fichas del sistema.

El cambio de saturación altera qué puntos de referencia importan para la clasificación. SWE-bench Pro (variante más difícil con menos fuga pública) y Humanity's Last Exam (razonamiento escrito por expertos) ahora muestran separación real. En SWE-bench Pro, Opus 4.8 lidera con 69,2% frente a GPT-5.5 con 58,6% y Gemini 3.1 Pro con 54,2% —una brécha de 15 puntos. En Humanity's Last Exam con herramientas, Opus 4.8 obtiene 57,9%, y el marcador abarca un rango más amplio, indicando espacio aún abierto. El campo está redefiniendo puntos de referencia, con FrontierMath (Epoch AI) y SWE-bench Verified (problemas de GitHub) emergiendo como tareas de filtrado más difíciles. Más drámtico: Claude Opus 4.8 alcanzó el 96,7% en USAMO 2026 (pruebas de nivel olímpico), un salto de 27,4 puntos del 69,3% de Opus 4.7, señalando un cambio cualitativo en el razonamiento a nivel de prueba matemática.

La implicación: GPQA-Diamond y otros benchmarks saturados ya no sirven como filtros de capacidad. Cuando los evals posteriores convergen, la distribución de diferenciación se invierte—se mueve del razonamiento de alto nivel (que todos los modelos ahora manejan bien) al rendimiento de tarea aplicada (codificación a escala, flujos de trabajo agénticos de herramientas múltiples, síntesis de contexto largo, alineación/honestidad). La saturación de punto de referencia no es un fracaso; es evidencia de progreso. También significa que las decisiones de selección de modelo ahora descansan en evaluación específ ica de carga de trabajo en lugar de comparaciones de razonamiento entre dominios.

Para arquitectos: si su evaluación se basó en GPQA-Diamond o MMLU, actualice su suite de benchmark. Pruebe contra SWE-bench Pro (para codificación), Humanity's Last Exam (para razonamiento agéntico con herramientas) y evaluaciones OSWorld o BrowserAgent (para la finalización de tareas del mundo real). Observe los lanzamientos de FrontierMath de Epoch AI y las evaluaciones específicas de dominio de Vals AI. El costo por salida correcta ahora es más importante que la clasificación de punto porcentual en benchmarks saturados. Planifique su selección de modelo en torno a casos de uso específicos, no a marcadores generales de frontera.

Fuentes