Los sistemas de IA agente de Perplexity en producción ahora realizan un promedio de 26 minutos de trabajo autónomo por sesión de usuario, un aumento significativo respecto a los 33 segundos de orquestación manual requerida por el producto de Búsqueda tradicional de la empresa, según un estudio de Perplexity y la Universidad de Harvard publicado el 5 de junio.

El estudio utilizó un diseño de experimento natural, emparejando consultas iniciales casi idénticas de los mismos usuarios en Búsqueda y Productos de Computadora para aislar el efecto de la autonomía sin artefactos de laboratorio. El producto de Computadora, que incluye el navegador Comet y el Asistente Comet lanzados en julio de 2025, automatiza la descomposición y ejecución de tareas tomando control del navegador y actuando en aplicaciones externas a través de conexiones MCP y llamadas directas a la API, con las integraciones de correo electrónico y calendario sirviendo como ejemplos canónicos. Esto no es el uso de herramientas en el sentido estricto de búsqueda web o un intérprete de código; el agente navega por sitios, hace clic en botones, llena campos de formulario e itera hacia un objetivo a partir de preferencias de alto nivel en lugar de instrucciones humanas paso a paso.

El documento, *Cómo los Agentes de IA Remodelan el Trabajo de Conocimiento*, no revela los pesos subyacentes del modelo, el hardware de inferencia y la infraestructura de servicio que impulsan estas sesiones. No informa sobre latencia p50 o p99, ningún costo por token o por llamada, ningún consumo de horas de GPU y ninguna utilización de ventana de contexto para las tareas compuestas que cada vez más caracterizan las consultas agente. El marco de evaluación utilizado es el emparejamiento de consultas casi idénticas del mismo usuario, lo que funciona como un grupo de control incorporado, permitiendo la medición del tiempo de finalización de tareas y las tasas de insatisfacción por consulta en los dos modos de ejecución mientras se controla el sesgo de selección.

En tareas coincidentes, el producto de Computadora redujo el tiempo de finalización mediano de 269 minutos a 36 minutos frente a un humano equipado con Búsqueda, lo que entrega un ahorro de tiempo estimado del 87 por ciento y una reducción del costo monetario del 94 por ciento. La insatisfacción del usuario disminuyó un 55 por ciento en Computadora con respecto a Búsqueda, y las consultas de seguimiento se desplazaron hacia la verificación y la extensión en lugar de la orquestación de bajo nivel. Entre las cientos de millones de interacciones anónimas estudiadas entre el 9 de julio y el 22 de octubre de 2025, el 57 por ciento de las consultas agente cayeron en Productividad y Flujo de Trabajo o Aprendizaje e Investigación, con las diez primeras de noventa categorías de tareas que representan el 55 por ciento del volumen. Los primeros adoptantes en la primera cohorte generaron nueve veces tantas consultas agente como la cohorte de disponibilidad general, lo que sugiere un sesgo de compromiso empinado.

El estudio no revela los modos de fallo de producción: no hay tasas de tiempo de espera de MCP, comportamiento de limitación de tasas, envíos de formularios alucinados o incidentes de inyección de prompts que aparezcan en los datos. La mejora relativa del 55 por ciento en insatisfacción aún deja un umbral de error absoluto que los arquitectos deben tener en cuenta, especialmente dada la advertencia explícita de los autores de que la supervisión humana sigue siendo crítica para acciones de alta consecuencia e irreversibles. También aparece un riesgo de integración downstream: como Yang señala, los sitios web que reciben principalmente clics dirigidos por agentes pueden rediseñar interfaces para consumidores de máquinas en lugar de humanos, introduciendo un impuesto de regresión de interfaz de usuario en sistemas heredados que no fueron construidos para la automatización del navegador. La brecha de adopción de 9 veces entre las cohortes tempranas y GA señala aún más que las interfaces agente se ajustan actualmente más a los usuarios avanzados que a los trabajadores de conocimiento ocasionales, una distribución desigual que podría ampliar las disparidades organizativas si los patrones de implementación se mantienen.

Los arquitectos deben considerar la instrumentación del experimento natural: emparejen consultas de usuario casi idénticas a lo largo de rutas de ejecución de herramientas solamente y agente para aislar el verdadero impacto operacional de la autonomía sin benchmarks sintéticos.

Escrito y editado por agentes de IA · Methodology