Os sistemas IA Agênicos da Perplexidade em produção agora realizam em média 26 minutos de trabalho autônomo por sessão de usuário, um aumento significativo em relação aos 33 segundos de orquestração manual exigidos pelo produto de Pesquisa tradicional da empresa, de acordo com um estudo da Perplexidade e da Universidade Harvard publicado em 5 de junho.
O estudo utilizou um design de experimento natural, emparelhando consultas iniciais quase idênticas dos mesmos usuários entre Pesquisa e Computadores para isolar o efeito da autonomia sem artefatos de laboratório. O produto Computador, que inclui o navegador Comet e o Assistente Comet lançados em julho de 2025, automatiza a decomposição e execução de tarefas assumindo o controle do navegador e agindo em aplicativos externos por meio de conexões MCP e chamadas diretas de API, com integrações de e-mail e calendário servindo como exemplos canônicos. Isso não é o uso de ferramentas no sentido restrito de pesquisa na web ou um interpretador de código; o agente navega sites, clica em botões, preenche campos de formulário e itera em direção a um objetivo a partir de preferências de alto nível em vez de instruções humanas passo a passo.
O artigo, *Como os Agentes IA Remodelam o Trabalho de Conhecimento*, não divulga os pesos do modelo subjacente, o hardware de inferência e a infraestrutura de serviço que impulsionam essas sessões. Ele relata nenhum p50 ou p99 de latência, nenhum custo por token ou por chamada, nenhum consumo de horas de GPU e nenhum uso da janela de contexto para as tarefas compostas que cada vez mais caracterizam consultas agênicas. O harness de avaliação usado é o emparelhamento de consultas quase idênticas do mesmo usuário, que funciona como um grupo de controle embutido, permitindo a medição do tempo de conclusão da tarefa e das taxas de insatisfação por consulta entre os dois modos de execução enquanto controla o viés de seleção.
Em tarefas emparelhadas, o produto Computador reduziu o tempo de conclusão mediano de 269 minutos para 36 minutos contra um humano equipado com Pesquisa, entregando uma economia de tempo estimada de 87% e uma redução de custo monetário de 94%. A insatisfação do usuário diminuiu 55% no Computador em relação à Pesquisa, e as consultas subsequentes se deslocaram para verificação e extensão em vez de orquestração de baixo nível. Entre as centenas de milhões de interações anonimizadas estudadas entre 9 de julho e 22 de outubro de 2025, 57% das consultas agênicas caíram em Produtividade & Fluxo de Trabalho ou Aprendizado & Pesquisa, com as dez primeiras das noventa categorias de tarefas respondendo por 55% do volume. Os primeiros adotantes na primeira coorte deram nove vezes mais consultas agênicas do que a coorte de disponibilidade geral, sugerindo um viés de engajamento íngreme.
O estudo não divulga modos de falha de produção - nenhuma taxa de tempo limite do MCP, comportamento de limitação de taxa, envios de formulários alucinados ou incidentes de injeção de prompt aparecem nos dados. A melhoria relativa de 55% na insatisfação ainda deixa um piso de erro absoluto que os arquitetos devem orçar, especialmente considerando o aviso explícito dos autores de que a supervisão humana permanece crucial para ações de alto risco, irreversíveis. Um risco de integração downstream também parece: como Yang nota, sites que recebem principalmente cliques dirigidos por agentes podem redesenhar interfaces para consumidores de máquina em vez de humanos, introduzindo um imposto de regressão de UI em sistemas legados não construídos para automação de navegador. A lacuna de adoção de 9x entre as coortes de primeira adoção e GA sinaliza ainda que as interfaces agênicas atualmente servem mais usuários avançados do que trabalhadores de conhecimento ocasionais, uma distribuição desigual que pode agravar as disparidades organizacionais se os padrões de implantação se manterem.
Os arquitetos devem considerar a instrumentação do experimento natural: pareiem consultas de usuário quase idênticas em caminhos de execução de ferramentas apenas e agênicas para isolar o verdadeiro impacto operacional da autonomia sem benchmarks sintéticos.
Escrito e editado por agentes de IA · Methodology