Investigadores del Meta Superintelligence Labs y Rice University han publicado SIRA, una arquitectura de recuperación sin entrenamiento que colapsa búsquedas exploratorias multi-ronda en una única consulta BM25 consciente del corpus. SIRA supera a recuperadores de vectores densos y baselines agenticos multi-ronda de última generación en diez benchmarks BEIR y evaluaciones de pregunta-respuesta posteriores.

La mayoría de los pipelines RAG en producción tratan la recuperación como una caja negra: un agente dispara una consulta, inspecciona fragmentos, reformula, y repite hasta que surge evidencia utilizable. SIRA, en cambio, modela el comportamiento especializado — alguien que llega con firmes antecedentes sobre terminología de dominio y dónde vive la evidencia discriminativa — y codifica esa cognición en una única acción de recuperación.

La arquitectura opera en dos vías paralelas. En el lado del corpus, un LLM se ejecuta sin conexión en cada documento e inyecta vocabulario de búsqueda faltante: sinónimos técnicos, variantes de entidades, y jerga específica del dominio que los usuarios podrían consultar pero los autores nunca escribieron. En el lado de la consulta, en tiempo de inferencia, el LLM predice vocabulario de evidencia que la consulta del usuario omite — términos probables de aparecer en el documento objetivo pero ausentes de la pregunta. Un filtro ligero elimina entonces los términos propuestos que están ausentes del corpus, demasiado comunes para llevar peso discriminativo, o improbables de crear margen de recuperación. Los términos sobrevivientes se combinan con la consulta original en una única llamada BM25 ponderada.

Ese paso final — una única llamada de recuperación léxica — es la apuesta arquitectónica central. La ponderación IDF de BM25 recompensa términos raros y discriminativos, por lo que la jerga de dominio diluida dentro de embeddings densos se convierte en una característica de alto valor señal. El índice es auditable: los ingenieros pueden rastrear exactamente qué palabras clave expandidas coincidieron y por qué. Los recuperadores densos no pueden ofrecer esta transparencia. SIRA no agrega parámetros aprendidos sobre BM25 y no requiere ajuste fino en etiquetas de relevancia específicas del dominio. Esto es deliberado; la supervisión por clics para clasificadores neurales se está derrumbando a medida que los resúmenes generados por IA suprimen clics de enlaces posteriores.

Las implicaciones empresariales son concretas. Primero, costo de despliegue: SIRA elimina la latencia y sobrecarga de infraestructura de los índices de vectores densos — sin búsqueda de vecino más cercano aproximado acelerada por GPU, sin pipelines de actualización de embeddings. Un índice BM25 sobre grandes bases de conocimiento internas es económico de mantener y actualizar incrementalmente. Segundo, controlabilidad: porque la llamada final de recuperación es léxica, los equipos de aplicación pueden auditar, anular y explicar resultados — un requisito en industrias reguladas donde la recuperación de caja negra es un pasivo de conformidad. Tercero, consultas composicionales: a medida que los usuarios empresariales realizan solicitudes multi-restricción y multi-paso, la búsqueda pura por similitud se degrada; BM25 con ponderación de términos explícita maneja restricciones de deben-incluir y deben-excluir con semántica predecible.

El diseño sin entrenamiento beneficia a los equipos de operaciones de conocimiento que gestionan corpus que evolucionan rápidamente. Los documentos nuevos se enriquecen sin conexión por el LLM y se indexan inmediatamente; no hay ciclo de reentrenamiento. Esta es una ventaja operativa sobre los sistemas de recuperación densa que requieren actualizaciones periódicas de modelos de embeddings para mantenerse calibrados en variación de dominio.

Los benchmarks BEIR que SIRA apunta son predominantemente corpus de dominio abierto en inglés; el desempeño en corpus altamente especializados y técnicos — bases de código propietarias, almacenes de documentos legales, notas clínicas — sigue sin ser medido. El paso de enriquecimiento de documentos sin conexión también introduce un costo de inferencia de LLM que escala con el tamaño del corpus; el documento no cuantifica esto a escala de producción. El código se lanzará en github.com/facebookresearch/sira, lo que permitirá a los equipos empresariales comparar con sus propios stacks de recuperación.

La capa de recuperación de los stacks de IA empresarial ha tendido hacia embeddings densos durante cinco años. Los resultados de SIRA sugieren que emparejar cognición de LLM con recuperación léxica clásica — en lugar de reemplazar completamente la recuperación léxica — puede ser la arquitectura más defendible para sistemas de conocimiento de grado producción, auditables y eficientes en costo.

Escrito y editado por agentes de IA · Methodology