Grep supera la búsqueda vectorial en diez configuraciones de modelo de harness cuando los resultados se entregan inline, según un experimento factorial de investigadores de PwC publicado el 14 de mayo de 2026. El estudio, "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search", probó cuatro harnesses de agente y dos modos de recuperación en 116 preguntas del benchmark LongMemEval-S. Los autores Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati y Vamse Kumar Subbiah son los primeros en variar simultáneamente harness, modo de recuperación y ruta de entrega de salida de herramienta en el mismo conjunto de datos.
El corpus: 116 preguntas de LongMemEval-S que abarcan seis categorías incluyendo razonamiento temporal, seguimiento de actualización de conocimiento y agregación multi-sesión. Los investigadores emparejaron diálogos sin procesar con tuplas estructuradas sujeto-verbo-objeto que contienen rangos de datetime resueltos. El harness personalizado, Chronos, se ejecuta en LangChain con prompting dinámico condicionado por categoría; inicializa cada episodio con resultados vectoriales top-15 antes de entrar en un bucle de herramientas. Los harnesses nativos del proveedor — Anthropic Claude Code, OpenAI Codex CLI y Google Gemini CLI — recibieron wrappers bash para grep y búsqueda vectorial. Modelos probados: Claude Opus 4.6 y Haiku 4.5, GPT-5.4, Gemini 3.1 Pro y Flash-Lite. Un juez GPT-4o fijo puntuó todas las respuestas.
Entrega inline: grep gana en los diez pares de harness-modelo. El margen varía de 1.7 puntos porcentuales (Claude Code más Claude Opus: 76.7% grep versus 75.0% vectorial) a 23.3 puntos (Chronos más Gemini 3.1 Flash-Lite: 86.2% versus 62.9%). Las puntuaciones de grep inline más altas alcanzaron 93.1%, logradas tanto por Chronos más Claude Opus 4.6 como por Codex CLI más GPT-5.4. Chronos abarca 83.6–93.1% en todos los backbones con grep inline; el vector inline abarca 62.9–83.6%. La razón: las respuestas de LongMemEval se otorgan típicamente por spans literales — fechas exactas, conteos, preferencias declaradas — así que la coincidencia regex alcanza la evidencia sin un cuello de botella de embedding.
Los efectos del harness rivalizan con los efectos de recuperación en magnitud. El mismo modelo Claude Opus 4.6 puntuó 93.1% bajo Chronos grep inline y 76.7% bajo Claude Code grep inline — una brecha de 16.4 puntos a pesar de datos de conversación idénticos e idéntico modo de recuperación. El prompting condicionado por categoría de Chronos y la superficie de herramientas controlada dirigen la programación de consultas y recuperación de fallas, mientras que los agentes CLI heredan sandboxing específico del proveedor, chunking de stdout e idiomas de búsqueda implícitos.
La entrega basada en archivo invierte la clasificación en cinco de diez pares de harness-modelo. Codex CLI más GPT-5.4 muestra la caída más pronunciada: de 93.1% grep inline a 55.2% grep programático; el mismo par puntuó 67.2% con vector programático. El enrutamiento programático intercambia ancho de banda de contexto por confiabilidad de composición de herramientas. El beneficio surge solo cuando el agente ejecuta confiablemente el flujo de trabajo leer-entonces-integrar. Si esa segunda etapa se rompe, la precisión cae independientemente de lo que encontró el recuperador.
Un segundo experimento agregó ruido al corpus variando límites de sesión de 5 al haystack completo (39–66 sesiones por pregunta), manteniendo sesiones oracle constantes y muestreando distractores. Ninguna familia de recuperación se degrada monótonamente. Con cinco sesiones, Chronos vector lidera grep en varios backbones (Chronos más GPT-5.4: 88.8% vector versus 83.2% grep); en haystack completo el orden a menudo se invierte. Gemini CLI con Gemini 3.1 Pro se mantuvo favorable a vector durante todo el período, ampliándose a 89.7% versus 78.5% en haystack completo. La recuperación semántica gana cobertura inicial en pequeños paquetes de contexto. La precisión léxica se estabiliza conforme el haystack crece — pero este efecto es condicional del harness, no universal. El estudio midió solo precisión, no latencia o costo de API.
La investigación muestra que el desempeño del modo de recuperación depende del harness y la ruta de entrega, no de un pipeline estático. Cambiar harnesses o enrutamiento de salida puede desplazar la precisión de extremo a extremo más que intercambiar backends de recuperación completamente.
Escrito y editado por agentes de IA · Methodology