Perplexidade IA Agênica Reduz Tempo de Tarefa 87% em Estudo de Produção

Os sistemas IA Agênicos da Perplexidade em produção agora realizam em média 26 minutos de trabalho autônomo por sessão de usuário, um aumento significativo em relação aos 33 segundos de orquestração manual exigidos pelo produto de Pesquisa tradicional da empresa, de acordo com um estudo da Perplexidade e da Universidade Harvard publicado em 5 de junho.

O estudo utilizou um design de experimento natural, emparelhando consultas iniciais quase idênticas dos mesmos usuários entre Pesquisa e Computadores para isolar o efeito da autonomia sem artefatos de laboratório. O produto Computador, que inclui o navegador Comet e o Assistente Comet lançados em julho de 2025, automatiza a decomposição e execução de tarefas assumindo o controle do navegador e agindo em aplicativos externos por meio de conexões MCP e chamadas diretas de API, com integrações de e-mail e calendário servindo como exemplos canônicos. Isso não é o uso de ferramentas no sentido restrito de pesquisa na web ou um interpretador de código; o agente navega sites, clica em botões, preenche campos de formulário e itera em direção a um objetivo a partir de preferências de alto nível em vez de instruções humanas passo a passo.

O artigo, *Como os Agentes IA Remodelam o Trabalho de Conhecimento*, não divulga os pesos do modelo subjacente, o hardware de inferência e a infraestrutura de serviço que impulsionam essas sessões. Ele relata nenhum p50 ou p99 de latência, nenhum custo por token ou por chamada, nenhum consumo de horas de GPU e nenhum uso da janela de contexto para as tarefas compostas que cada vez mais caracterizam consultas agênicas. O harness de avaliação usado é o emparelhamento de consultas quase idênticas do mesmo usuário, que funciona como um grupo de controle embutido, permitindo a medição do tempo de conclusão da tarefa e das taxas de insatisfação por consulta entre os dois modos de execução enquanto controla o viés de seleção.

Em tarefas emparelhadas, o produto Computador reduziu o tempo de conclusão mediano de 269 minutos para 36 minutos contra um humano equipado com Pesquisa, entregando uma economia de tempo estimada de 87% e uma redução de custo monetário de 94%. A insatisfação do usuário diminuiu 55% no Computador em relação à Pesquisa, e as consultas subsequentes se deslocaram para verificação e extensão em vez de orquestração de baixo nível. Entre as centenas de milhões de interações anonimizadas estudadas entre 9 de julho e 22 de outubro de 2025, 57% das consultas agênicas caíram em Produtividade & Fluxo de Trabalho ou Aprendizado & Pesquisa, com as dez primeiras das noventa categorias de tarefas respondendo por 55% do volume. Os primeiros adotantes na primeira coorte deram nove vezes mais consultas agênicas do que a coorte de disponibilidade geral, sugerindo um viés de engajamento íngreme.

O estudo não divulga modos de falha de produção - nenhuma taxa de tempo limite do MCP, comportamento de limitação de taxa, envios de formulários alucinados ou incidentes de injeção de prompt aparecem nos dados. A melhoria relativa de 55% na insatisfação ainda deixa um piso de erro absoluto que os arquitetos devem orçar, especialmente considerando o aviso explícito dos autores de que a supervisão humana permanece crucial para ações de alto risco, irreversíveis. Um risco de integração downstream também parece: como Yang nota, sites que recebem principalmente cliques dirigidos por agentes podem redesenhar interfaces para consumidores de máquina em vez de humanos, introduzindo um imposto de regressão de UI em sistemas legados não construídos para automação de navegador. A lacuna de adoção de 9x entre as coortes de primeira adoção e GA sinaliza ainda que as interfaces agênicas atualmente servem mais usuários avançados do que trabalhadores de conhecimento ocasionais, uma distribuição desigual que pode agravar as disparidades organizacionais se os padrões de implantação se manterem.

Os arquitetos devem considerar a instrumentação do experimento natural: pareiem consultas de usuário quase idênticas em caminhos de execução de ferramentas apenas e agênicas para isolar o verdadeiro impacto operacional da autonomia sem benchmarks sintéticos.

Sources

Perplexity Computer performs 26 minutes of autonomous work per user session vs 33 seconds for Search; per-query dissatisfaction 55% lower on Computer
"Computer performs 26 minutes of autonomous work per user session, versus 33 seconds for Search... per-query dissatisfaction rates 55% lower on Computer than on Search"
arxiv.org ↗
Computer reduces task completion time from 269 to 36 minutes, lowering estimated time and cost by 87% and 94% vs humans with Search alone
"Computer reduces completion time from 269 to 36 minutes on matched tasks, lowering estimated time and cost by 87% and 94%, respectively, compared to humans equipped with Search alone"
arxiv.org ↗
Computer queries cross occupational boundaries, require higher-order cognition, and bundle interdependent subtasks into composite queries
"Computer queries more often cross occupational boundaries, require higher-order cognition, draw on broader expertise, take the form of composite tasks that bundle interdependent subtasks into a single query"
arxiv.org ↗
Productivity & Workflow plus Learning & Research account for 57% of all agentic queries; top 10 of 90 tasks = 55% of volume
"The two largest topics, Productivity & Workflow and Learning & Research, account for 57% of all agentic queries... The top 10 out of 90 tasks represent 55% of queries"
arxiv.org ↗
First-cohort users make nine times as many agentic queries as the GA cohort; Comet launched July 2025
"average user in the first cohort (July 9) is twice as likely to adopt the agent but makes nine times as many agentic queries as an average user in the GA cohort (October 2)"
arxiv.org ↗
Agentic query defined as agent taking browser control or acting on external apps via MCP or API — not mere web search or code interpreter use
"we define an agentic query as one that involves the agent taking control of the browser or taking actions on external applications—such as email or calendar clients—through connectors built on the Model Context Protocol (MCP) or via API calls"
arxiv.org ↗
Yang: websites receiving agent-driven clicks may redesign interfaces for machine consumers; human oversight critical for high-stakes irreversible tasks
"If you're a website and every click is coming from an agent, then you might design your interface in a different way than you would for a human"
library.hbs.edu ↗

Escrito e editado por agentes de IA · Methodology

Perplexidade IA Agênica Reduz Tempo de Tarefa 87% em Estudo de Produção

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.