EN VIVO · LUN, 29 JUN 2026 --:--:-- ET
Edición Nº 69 GASTO TOTAL $14603.40 ARTÍCULOS HOY 1 TOKENS TOTAL 9.23B
aiexpert
En vivo
Funding Kunlunxin de Baidu apunta a OPI en Hong Kong de $50B, vinculando compras de chips a asignaciones Funding Momenta lanza IPO en Hong Kong apuntando a $751M para I+D de conducción autónoma Chips HBM ahora comprende 35-47% de la BOM del acelerador de IA; HBM de GB200 solo cuesta $4.800/unidad Market Ingresos HBM4 de Samsung superan $1 mil millones; apunta a tasa de ejecución de $10 mil millones para finales de 2026 Chips OpenAI, Broadcom desvelan chip de inferencia LLM Jalapeño; despliegue a escala de gigavatio apuntado para finales de 2026 Market TSMC advierte que la escasez de chips de IA persistirá hasta 2027; señala aumento de precio 3nm de 15% H2 2026 Research DeepSeek V4 DSpark decodificación especulativa reduce latencia de inferencia 85%, llega a Together AI Breaking OpenAI lanza red de socios de $150M para certificar a 300K consultores antes de fin de año Breaking HP se convierte en adoptante principal de Frontier; OpenAI escala plataforma de agente de IA empresarial con asociaciones de consultoría Breaking Apple solicita a la Casa Blanca aprobación de CXMT conforme los costos de memoria golpean aumentos de MacBook e iPad del 20% Funding Samsung, SK Hynix planean capex de $1,3B durante una década bajo demanda de memoria para IA Breaking Lenovo, NVIDIA Asociación en AI Cloud Gigafactory; Reducen Timelines de Implementación de Servidor de Inferencia de Meses a Semanas Chips TPUs de Google Impulsan Expansión de Anthropic; Hasta 1M de Chips Ironwood Aseguran Acuerdo de Capacidad Multi-Gigawatt de $40B Hasta 2027+ Chips NVIDIA confirma producción en volumen de Vera Rubin; GPU Rubin lidera AgentPerf con 20x eficiencia sobre Hopper Policy FERC ordena a operadores de redes para acelerar conexiones de centros de datos de IA; plazo de 60 días para justificar o reescribir tarifas Chips Subvención CHIPS de Coherent de $50M para expansión de fábrica de fosfuro de indio; cuadruplica producción de obleas de Sherman para redes ópticas de IA Chips NVIDIA se asocia con SK Hynix en memoria de IA de próxima generación; codesarrollando para Vera Rubin y fábricas autónomas Chips CoWoS de TSMC alcanza 98% de rendimiento; hoja de ruta SoW-X soporta 64 pilas HBM; producción de óptica co-empaquetada 2026 Chips DDR5 PNY-5600 32GB alcanza $379,99 — kit 2x16GB más barato en medio de crisis de RAM; descuento del 16% Chips Producción TSMC 2nm alcanza 70% de rendimiento; Apple, NVIDIA bloqueadas hasta 2026 Funding Kunlunxin de Baidu apunta a OPI en Hong Kong de $50B, vinculando compras de chips a asignaciones Funding Momenta lanza IPO en Hong Kong apuntando a $751M para I+D de conducción autónoma Chips HBM ahora comprende 35-47% de la BOM del acelerador de IA; HBM de GB200 solo cuesta $4.800/unidad Market Ingresos HBM4 de Samsung superan $1 mil millones; apunta a tasa de ejecución de $10 mil millones para finales de 2026 Chips OpenAI, Broadcom desvelan chip de inferencia LLM Jalapeño; despliegue a escala de gigavatio apuntado para finales de 2026 Market TSMC advierte que la escasez de chips de IA persistirá hasta 2027; señala aumento de precio 3nm de 15% H2 2026 Research DeepSeek V4 DSpark decodificación especulativa reduce latencia de inferencia 85%, llega a Together AI Breaking OpenAI lanza red de socios de $150M para certificar a 300K consultores antes de fin de año Breaking HP se convierte en adoptante principal de Frontier; OpenAI escala plataforma de agente de IA empresarial con asociaciones de consultoría Breaking Apple solicita a la Casa Blanca aprobación de CXMT conforme los costos de memoria golpean aumentos de MacBook e iPad del 20% Funding Samsung, SK Hynix planean capex de $1,3B durante una década bajo demanda de memoria para IA Breaking Lenovo, NVIDIA Asociación en AI Cloud Gigafactory; Reducen Timelines de Implementación de Servidor de Inferencia de Meses a Semanas Chips TPUs de Google Impulsan Expansión de Anthropic; Hasta 1M de Chips Ironwood Aseguran Acuerdo de Capacidad Multi-Gigawatt de $40B Hasta 2027+ Chips NVIDIA confirma producción en volumen de Vera Rubin; GPU Rubin lidera AgentPerf con 20x eficiencia sobre Hopper Policy FERC ordena a operadores de redes para acelerar conexiones de centros de datos de IA; plazo de 60 días para justificar o reescribir tarifas Chips Subvención CHIPS de Coherent de $50M para expansión de fábrica de fosfuro de indio; cuadruplica producción de obleas de Sherman para redes ópticas de IA Chips NVIDIA se asocia con SK Hynix en memoria de IA de próxima generación; codesarrollando para Vera Rubin y fábricas autónomas Chips CoWoS de TSMC alcanza 98% de rendimiento; hoja de ruta SoW-X soporta 64 pilas HBM; producción de óptica co-empaquetada 2026 Chips DDR5 PNY-5600 32GB alcanza $379,99 — kit 2x16GB más barato en medio de crisis de RAM; descuento del 16% Chips Producción TSMC 2nm alcanza 70% de rendimiento; Apple, NVIDIA bloqueadas hasta 2026
Research

DeepSeek V4 DSpark decodificación especulativa reduce latencia de inferencia 85%, llega a Together AI

DeepSeek lanzó DSpark, un framework de decodificación especulativa para V4-Pro y V4-Flash, el 27 de junio de 2026, afirmando una reducción de hasta 85% en la latencia de inferencia sin requerir nuevo hardware o reentrenamiento de modelo. La decodificación especulativa genera tokens de borrador de bajo costo usando un modelo más pequeño, luego los verifica contra el modelo completo, intercambiando costo de prefill más alto por tokens de decodificación reducidos y latencia general más baja. DeepSeek afirma que la técnica funciona tanto en su API alojada como en pesos abiertos auto-hospedados, aunque los puntos de referencia independientes no se habían publicado hasta el 28 de junio. Las cifras de aceleración derivan de los propios puntos de referencia de DeepSeek en la infraestructura de DeepSeek contra su propia línea base anterior (MTP-1), por lo que las afirmaciones merecen verificación de terceros antes de la planificación del despliegue en producción.

Together AI lanzó DeepSeek V4 Pro en su plataforma Serverless Inference el 27-28 de junio de 2026, con precios de entrada en caché para razonamiento de contexto largo económico. V4 Pro es un modelo MoE de 1.6T (49B activado) con soporte de contexto de 512K en Together (expandible a 1M en dedicado), ofreciendo tres modos de razonamiento (Non-Think, Think High, Think Max) y rendimiento de 90.1% GPQA-Diamond + 95.2% HMMT-2026 en matemáticas. La disponibilidad refleja un cambio estructural en la economía de inferencia de código abierto: modelos como V4-Pro ahora rivalizan o superan alternativas de código cerrado en tareas agentes y de codificación, con costo por token competitivo con ofertas propietarias más pequeñas una vez que se optimizan los costos de servicio.

Para equipos que evalúan modelos de razonamiento de código abierto para agentes de producción y bases de código de documentos largos, la disponibilidad de V4-Pro en Together (más opcionalidad de auto-hospedaje) es un cambio material en el cálculo de construir versus comprar. La combinación de arquitectura de atención híbrida (reduciendo caché KV 90% vs V3.2 en contexto de 1M), cuantización agresiva (FP4+FP8 mixto) y decodificación especulativa DSpark sugiere que el costo de inferencia por token para V4 podría ser menor que las cargas de trabajo de código cerrado comparable en 2027. Observe puntos de referencia de latencia de terceros; si la confirmación independiente valida la afirmación de aceleración del 85% en patrones de inferencia de producción, reforma el ROI tanto en silício personalizado (Jalapeño, B200) como en decisiones de compra de infraestructura de inferencia.

Fuentes