CEO da Perplexity: latência vence a corrida de IA, não apenas scores de benchmark
O CEO da Perplexity, Aravind Srinivas, disse à CNBC que latência de inferência—não apenas precisão bruta—será a métrica decisiva na adoção de IA empresarial nos próximos 12 meses. Ele argumentou que tempos de resposta abaixo de 100ms para workflows agentic separarão vencedores de fornecedores legados que lutam com stacks de inferência mais lentos.
Para compradores de infraestrutura avaliando plataformas de model serving e estratégias de alocação de GPU, isso sinaliza uma mudança nas prioridades de RFP: espere clientes demandarem SLAs de latência ao lado de benchmarks de precisão. Isso favorece o roadmap de otimização de inferência da NVIDIA (TensorRT-LLM, otimizações Llama 3) e engines de inferência menores e propositais sobre fornecedores pesados focados em treinamento.