CEO de Perplexity: la latencia gana la carrera de IA, no solo puntuaciones de benchmark
El CEO de Perplexity, Aravind Srinivas, dijo a CNBC que la latencia de inferencia—no solo la precisión bruta—será la métrica decisiva en la adopción de IA empresarial durante los próximos 12 meses. Argumentó que los tiempos de respuesta por debajo de 100 ms para workflows agentic separarán a los ganadores de los proveedores heredados que luchan con stacks de inferencia más lentos.
Para compradores de infraestructura que evalúan plataformas de model serving y estrategias de asignación de GPU, esto señala un cambio en las prioridades de RFP: espere que los clientes exijan SLAs de latencia junto con benchmarks de precisión. Esto favorece la hoja de ruta de optimización de inferencia de NVIDIA (TensorRT-LLM, optimizaciones Llama 3) e engines de inferencia más pequeños y especializados sobre proveedores pesados enfocados en entrenamiento.