Grep Supera Búsqueda Vectorial en Recuperación Inline de Agentes

Grep supera la búsqueda vectorial en diez configuraciones de modelo de harness cuando los resultados se entregan inline, según un experimento factorial de investigadores de PwC publicado el 14 de mayo de 2026. El estudio, "Is Grep All You Need? How Agent Harnesses Reshape Agentic Search", probó cuatro harnesses de agente y dos modos de recuperación en 116 preguntas del benchmark LongMemEval-S. Los autores Sahil Sen, Akhil Kasturi, Elias Lumer, Anmol Gulati y Vamse Kumar Subbiah son los primeros en variar simultáneamente harness, modo de recuperación y ruta de entrega de salida de herramienta en el mismo conjunto de datos.

El corpus: 116 preguntas de LongMemEval-S que abarcan seis categorías incluyendo razonamiento temporal, seguimiento de actualización de conocimiento y agregación multi-sesión. Los investigadores emparejaron diálogos sin procesar con tuplas estructuradas sujeto-verbo-objeto que contienen rangos de datetime resueltos. El harness personalizado, Chronos, se ejecuta en LangChain con prompting dinámico condicionado por categoría; inicializa cada episodio con resultados vectoriales top-15 antes de entrar en un bucle de herramientas. Los harnesses nativos del proveedor — Anthropic Claude Code, OpenAI Codex CLI y Google Gemini CLI — recibieron wrappers bash para grep y búsqueda vectorial. Modelos probados: Claude Opus 4.6 y Haiku 4.5, GPT-5.4, Gemini 3.1 Pro y Flash-Lite. Un juez GPT-4o fijo puntuó todas las respuestas.

Entrega inline: grep gana en los diez pares de harness-modelo. El margen varía de 1.7 puntos porcentuales (Claude Code más Claude Opus: 76.7% grep versus 75.0% vectorial) a 23.3 puntos (Chronos más Gemini 3.1 Flash-Lite: 86.2% versus 62.9%). Las puntuaciones de grep inline más altas alcanzaron 93.1%, logradas tanto por Chronos más Claude Opus 4.6 como por Codex CLI más GPT-5.4. Chronos abarca 83.6–93.1% en todos los backbones con grep inline; el vector inline abarca 62.9–83.6%. La razón: las respuestas de LongMemEval se otorgan típicamente por spans literales — fechas exactas, conteos, preferencias declaradas — así que la coincidencia regex alcanza la evidencia sin un cuello de botella de embedding.

Los efectos del harness rivalizan con los efectos de recuperación en magnitud. El mismo modelo Claude Opus 4.6 puntuó 93.1% bajo Chronos grep inline y 76.7% bajo Claude Code grep inline — una brecha de 16.4 puntos a pesar de datos de conversación idénticos e idéntico modo de recuperación. El prompting condicionado por categoría de Chronos y la superficie de herramientas controlada dirigen la programación de consultas y recuperación de fallas, mientras que los agentes CLI heredan sandboxing específico del proveedor, chunking de stdout e idiomas de búsqueda implícitos.

La entrega basada en archivo invierte la clasificación en cinco de diez pares de harness-modelo. Codex CLI más GPT-5.4 muestra la caída más pronunciada: de 93.1% grep inline a 55.2% grep programático; el mismo par puntuó 67.2% con vector programático. El enrutamiento programático intercambia ancho de banda de contexto por confiabilidad de composición de herramientas. El beneficio surge solo cuando el agente ejecuta confiablemente el flujo de trabajo leer-entonces-integrar. Si esa segunda etapa se rompe, la precisión cae independientemente de lo que encontró el recuperador.

Un segundo experimento agregó ruido al corpus variando límites de sesión de 5 al haystack completo (39–66 sesiones por pregunta), manteniendo sesiones oracle constantes y muestreando distractores. Ninguna familia de recuperación se degrada monótonamente. Con cinco sesiones, Chronos vector lidera grep en varios backbones (Chronos más GPT-5.4: 88.8% vector versus 83.2% grep); en haystack completo el orden a menudo se invierte. Gemini CLI con Gemini 3.1 Pro se mantuvo favorable a vector durante todo el período, ampliándose a 89.7% versus 78.5% en haystack completo. La recuperación semántica gana cobertura inicial en pequeños paquetes de contexto. La precisión léxica se estabiliza conforme el haystack crece — pero este efecto es condicional del harness, no universal. El estudio midió solo precisión, no latencia o costo de API.

La investigación muestra que el desempeño del modo de recuperación depende del harness y la ruta de entrega, no de un pipeline estático. Cambiar harnesses o enrutamiento de salida puede desplazar la precisión de extremo a extremo más que intercambiar backends de recuperación completamente.

Sources

Inline grep exceeds inline vector for every harness-model pair in Experiment 1
"With inline delivery, lexical search is uniformly stronger than dense retrieval: inline grep exceeds inline vector for every harness–model pair."
arxiv.org ↗
Largest margin is Chronos + Gemini 3.1 Flash-Lite at 86.2% grep vs 62.9% vector inline
"The largest margin is Chronos with Gemini 3.1 Flash-Lite (86.2% vs. 62.9%), and the narrowest is Claude Code with Claude Opus 4.6 (76.7% vs. 75.0%)."
arxiv.org ↗
Best inline grep scores of 93.1% achieved by Chronos + Claude Opus 4.6 and Codex CLI + GPT-5.4
"Codex with GPT-5.4 ties the strongest Chronos inline grep (93.1%) while its inline vector accuracy is 75.9%."
arxiv.org ↗
Chronos inline grep spans 83.6–93.1% across backbones; inline vector spans 62.9–83.6%
"On Chronos, inline grep spans 83.6–93.1% across backbones, whereas inline vector spans 62.9–83.6%."
arxiv.org ↗
Harness shift moves Claude Opus 4.6 from 93.1% (Chronos) to 76.7% (Claude Code) with identical data and retrieval mode
"The same Claude Opus 4.6 backbone reaches 93.1% under Chronos but 76.7% under Claude Code, so changing the harness shifts the ceiling by roughly as much as swapping retrievers within a fixed harness."
arxiv.org ↗
Programmatic delivery: vector exceeds grep on 5 of 10 harness-model pairs
"Programmatic delivery reshuffles the comparison: programmatic vector exceeds programmatic grep on five of ten harness–model pairs"
arxiv.org ↗
Codex + GPT-5.4 falls from 93.1% inline grep to 55.2% programmatic grep; programmatic vector is 67.2%
"The sharpest regression is Codex with GPT-5.4, which falls from 93.1% under inline grep to 55.2% under programmatic grep, with programmatic vector at 67.2% for that same pair."
arxiv.org ↗
Study uses 116-question LongMemEval-S subset, scored by GPT-4o judge
"We evaluate on a 116-question representative subset of the LongMemEval benchmark... We instantiated GPT-4o as the metric model"
arxiv.org ↗
Chronos harness built on LangChain with category-conditioned dynamic prompting; primes each episode with top-15 vector results
"Our custom harness, Chronos, implements an agent using LangChain with access to four search tools... we use dynamic prompting: the system instructions, search hints, and tool-use guidance depend on the detected question category... followed by an initial broad context block (top-15 vector results) before the tool-calling loop begins."
arxiv.org ↗
Experiment 2: at s5, Chronos vector (87.9–94.0%) leads Chronos grep (83.2–89.7%); ordering reverses or crosses at full haystack
"At s5, Chronos grep spans 83.2–89.7% across backbones, while Chronos vector at the same configuration spans 87.9–94.0%."
arxiv.org ↗
Gemini CLI Pro stays vector-ahead at every session limit, widening to 89.7% vs 78.5% grep at full haystack
"Under Gemini CLI, by contrast, Gemini 3.1 Pro stays vector-ahead at every configuration, with the grep–vector gap widening to 89.7% vs. 78.5% at full."
arxiv.org ↗
Codex CLI vector intermediate session results are incomplete, leaving no vendor-complete noise curve for CLI harnesses
"The Codex vector row is complete only at full; intermediate configurations are pending."
arxiv.org ↗
Models evaluated: Claude Opus 4.6, Claude Haiku 4.5, GPT-5.4, Gemini 3.1 Pro, Gemini 3.1 Flash-Lite
"We evaluate five LLMs and a range of capability levels: Claude Opus 4.6 and Claude Haiku 4.5, GPT-5.4, and Gemini 3.1 Pro and Gemini 3.1 Flash-Lite."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Grep Supera Búsqueda Vectorial en Recuperación Inline de Agentes

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.