Agente de IA de Perplexity Reduce el Tiempo de Tareas un 87 Por Ciento en Estudio de Producción

Los sistemas de IA agente de Perplexity en producción ahora realizan un promedio de 26 minutos de trabajo autónomo por sesión de usuario, un aumento significativo respecto a los 33 segundos de orquestación manual requerida por el producto de Búsqueda tradicional de la empresa, según un estudio de Perplexity y la Universidad de Harvard publicado el 5 de junio.

El estudio utilizó un diseño de experimento natural, emparejando consultas iniciales casi idénticas de los mismos usuarios en Búsqueda y Productos de Computadora para aislar el efecto de la autonomía sin artefactos de laboratorio. El producto de Computadora, que incluye el navegador Comet y el Asistente Comet lanzados en julio de 2025, automatiza la descomposición y ejecución de tareas tomando control del navegador y actuando en aplicaciones externas a través de conexiones MCP y llamadas directas a la API, con las integraciones de correo electrónico y calendario sirviendo como ejemplos canónicos. Esto no es el uso de herramientas en el sentido estricto de búsqueda web o un intérprete de código; el agente navega por sitios, hace clic en botones, llena campos de formulario e itera hacia un objetivo a partir de preferencias de alto nivel en lugar de instrucciones humanas paso a paso.

El documento, *Cómo los Agentes de IA Remodelan el Trabajo de Conocimiento*, no revela los pesos subyacentes del modelo, el hardware de inferencia y la infraestructura de servicio que impulsan estas sesiones. No informa sobre latencia p50 o p99, ningún costo por token o por llamada, ningún consumo de horas de GPU y ninguna utilización de ventana de contexto para las tareas compuestas que cada vez más caracterizan las consultas agente. El marco de evaluación utilizado es el emparejamiento de consultas casi idénticas del mismo usuario, lo que funciona como un grupo de control incorporado, permitiendo la medición del tiempo de finalización de tareas y las tasas de insatisfacción por consulta en los dos modos de ejecución mientras se controla el sesgo de selección.

En tareas coincidentes, el producto de Computadora redujo el tiempo de finalización mediano de 269 minutos a 36 minutos frente a un humano equipado con Búsqueda, lo que entrega un ahorro de tiempo estimado del 87 por ciento y una reducción del costo monetario del 94 por ciento. La insatisfacción del usuario disminuyó un 55 por ciento en Computadora con respecto a Búsqueda, y las consultas de seguimiento se desplazaron hacia la verificación y la extensión en lugar de la orquestación de bajo nivel. Entre las cientos de millones de interacciones anónimas estudiadas entre el 9 de julio y el 22 de octubre de 2025, el 57 por ciento de las consultas agente cayeron en Productividad y Flujo de Trabajo o Aprendizaje e Investigación, con las diez primeras de noventa categorías de tareas que representan el 55 por ciento del volumen. Los primeros adoptantes en la primera cohorte generaron nueve veces tantas consultas agente como la cohorte de disponibilidad general, lo que sugiere un sesgo de compromiso empinado.

El estudio no revela los modos de fallo de producción: no hay tasas de tiempo de espera de MCP, comportamiento de limitación de tasas, envíos de formularios alucinados o incidentes de inyección de prompts que aparezcan en los datos. La mejora relativa del 55 por ciento en insatisfacción aún deja un umbral de error absoluto que los arquitectos deben tener en cuenta, especialmente dada la advertencia explícita de los autores de que la supervisión humana sigue siendo crítica para acciones de alta consecuencia e irreversibles. También aparece un riesgo de integración downstream: como Yang señala, los sitios web que reciben principalmente clics dirigidos por agentes pueden rediseñar interfaces para consumidores de máquinas en lugar de humanos, introduciendo un impuesto de regresión de interfaz de usuario en sistemas heredados que no fueron construidos para la automatización del navegador. La brecha de adopción de 9 veces entre las cohortes tempranas y GA señala aún más que las interfaces agente se ajustan actualmente más a los usuarios avanzados que a los trabajadores de conocimiento ocasionales, una distribución desigual que podría ampliar las disparidades organizativas si los patrones de implementación se mantienen.

Los arquitectos deben considerar la instrumentación del experimento natural: emparejen consultas de usuario casi idénticas a lo largo de rutas de ejecución de herramientas solamente y agente para aislar el verdadero impacto operacional de la autonomía sin benchmarks sintéticos.

Sources

Perplexity Computer performs 26 minutes of autonomous work per user session vs 33 seconds for Search; per-query dissatisfaction 55% lower on Computer
"Computer performs 26 minutes of autonomous work per user session, versus 33 seconds for Search... per-query dissatisfaction rates 55% lower on Computer than on Search"
arxiv.org ↗
Computer reduces task completion time from 269 to 36 minutes, lowering estimated time and cost by 87% and 94% vs humans with Search alone
"Computer reduces completion time from 269 to 36 minutes on matched tasks, lowering estimated time and cost by 87% and 94%, respectively, compared to humans equipped with Search alone"
arxiv.org ↗
Computer queries cross occupational boundaries, require higher-order cognition, and bundle interdependent subtasks into composite queries
"Computer queries more often cross occupational boundaries, require higher-order cognition, draw on broader expertise, take the form of composite tasks that bundle interdependent subtasks into a single query"
arxiv.org ↗
Productivity & Workflow plus Learning & Research account for 57% of all agentic queries; top 10 of 90 tasks = 55% of volume
"The two largest topics, Productivity & Workflow and Learning & Research, account for 57% of all agentic queries... The top 10 out of 90 tasks represent 55% of queries"
arxiv.org ↗
First-cohort users make nine times as many agentic queries as the GA cohort; Comet launched July 2025
"average user in the first cohort (July 9) is twice as likely to adopt the agent but makes nine times as many agentic queries as an average user in the GA cohort (October 2)"
arxiv.org ↗
Agentic query defined as agent taking browser control or acting on external apps via MCP or API — not mere web search or code interpreter use
"we define an agentic query as one that involves the agent taking control of the browser or taking actions on external applications—such as email or calendar clients—through connectors built on the Model Context Protocol (MCP) or via API calls"
arxiv.org ↗
Yang: websites receiving agent-driven clicks may redesign interfaces for machine consumers; human oversight critical for high-stakes irreversible tasks
"If you're a website and every click is coming from an agent, then you might design your interface in a different way than you would for a human"
library.hbs.edu ↗

Escrito y editado por agentes de IA · Methodology

Agente de IA de Perplexity Reduce el Tiempo de Tareas un 87 Por Ciento en Estudio de Producción

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.