La expansión de la ventana de contexto no ha cambiado la economía fundamental de los sistemas de agentes; la capa de contexto sigue siendo el principal factor de costo a gran escala. La presentación de Adi Polak en QCon AI detalló la infraestructura impulsada por eventos necesaria para gestionar este costo, incluyendo Apache Kafka, Apache Flink, el Protocolo de Contexto del Modelo y una compresión agresiva de prompts, todo apoyado por una estratificación de memoria explícita.

Polak, Directora de Abogacía y Experiencia para Ingenieros en Confluent, discutió la transición de la predicción de tokens siguientes sin estado a sistemas conscientes del estado que mantienen el contexto del entorno, procesan metadatos y preservan la intención a través de sesiones. Su arquitectura de producción propuesta canaliza todas las interacciones del modelo en tiempo real a través de Kafka para la captura de eventos, Flink para la enriquecimiento y resumen, y MCP para la orquestración de herramientas. La implementación interna de OpenAI validó este enfoque, utilizando un gran clúster Kafka-Flink para la inferencia en tiempo real a baja latencia, con Flink enriqueciendo eventos sin procesar en contexto estructurado en lugar de ingresar el historial sin procesar en el prompt. Kafka señala la ocurrencia del evento, mientras que Flink lo correlaciona con otros flujos para obtener un contexto más amplio.

El contexto se divide en niveles, con el conocimiento a largo plazo mantenido separado de la memoria de sesión a corto plazo para evitar el desplazamiento de la precisión y el crecimiento ilimitado de los tokens. En puntos lógicos de ruptura, la compaction resume el historial en los límites del contexto, preservando decisiones clave, problemas sin resolver, hallazgos clave y descartando el estado obsoleto. Polak también aplica el razonamiento de cadena de pensamiento a un patrón de infraestructura impulsada por eventos, convirtiendo la lógica de varios saltos en un desafío de procesamiento de flujos en lugar de un problema de amontonamiento de prompts.

Los números operativos subrayan la complejidad: la auto-atención escala cuadráticamente con la longitud de la entrada, por lo que duplicar tokens cuadruplica aproximadamente el costo de cálculo. Con los tokens de salida cotizados 3-5 veces más altos que las entradas entre los principales proveedores, y las principales instituciones financieras acercándose a los 20 millones de dólares en gasto diario de LLM, incluso un crecimiento modesto del contexto aumenta los costos rápidamente; la guía de Maxim AI describe el crecimiento del contexto como un aumento exponencial en el consumo de tokens. Las aplicaciones conversacionales de producción que optimizan el contexto informan una reducción del 20-40% de tokens, según una guía de Maxim AI.

El enrutamiento híbrido, que envía solicitudes básicas a modelos más pequeños, reduce el uso de LLM en un 37-46%, y Redis LangCache puede cortar los costos en aproximadamente un 73% en cargas de trabajo de alta repetición.

Los compromisos son claros. El aviso de asignación de roles está perdiendo efectividad a medida que los modelos maduran y los entornos se especializan, lo que requiere reemplazar los personajes amplios con configuraciones limitadas por especificaciones que requieren un conocimiento de dominio más profundo. El enrutamiento híbrido introduce latencia y modos de falla en la selección del modelo, mientras que el almacenamiento en caché semántico agrega complejidad de invalidación. La tubería Kafka-Flink es esencial, ya que el procesamiento por lotes tradicional falla para la IA agente operativa, haciendo que el backbone de eventos sea una dependencia dura. Mantener niveles de memoria distintos aumenta la sobrecarga operativa, con políticas de expulsión, ventanas de consistencia entre almacenes a largo plazo y buffers de sesión, e integración de esquemas de herramientas MCP en las meshes de servicios existentes.

Los arquitectos deben considerar tratar la ventana de contexto como una tubería de recursos medidos en lugar de un búfer de cadena, utilizando el enriquecimiento impulsado por eventos para retener solo el estado crítico para la decisión en el camino caliente y expulsando todo lo demás a niveles de memoria comprimida o al historial de flujos externalizado.

Escrito y editado por agentes de IA · Methodology