La economía de los agentes depende de las tuberías de Kafka, no de las ventanas de contexto

La expansión de la ventana de contexto no ha cambiado la economía fundamental de los sistemas de agentes; la capa de contexto sigue siendo el principal factor de costo a gran escala. La presentación de Adi Polak en QCon AI detalló la infraestructura impulsada por eventos necesaria para gestionar este costo, incluyendo Apache Kafka, Apache Flink, el Protocolo de Contexto del Modelo y una compresión agresiva de prompts, todo apoyado por una estratificación de memoria explícita.

Polak, Directora de Abogacía y Experiencia para Ingenieros en Confluent, discutió la transición de la predicción de tokens siguientes sin estado a sistemas conscientes del estado que mantienen el contexto del entorno, procesan metadatos y preservan la intención a través de sesiones. Su arquitectura de producción propuesta canaliza todas las interacciones del modelo en tiempo real a través de Kafka para la captura de eventos, Flink para la enriquecimiento y resumen, y MCP para la orquestración de herramientas. La implementación interna de OpenAI validó este enfoque, utilizando un gran clúster Kafka-Flink para la inferencia en tiempo real a baja latencia, con Flink enriqueciendo eventos sin procesar en contexto estructurado en lugar de ingresar el historial sin procesar en el prompt. Kafka señala la ocurrencia del evento, mientras que Flink lo correlaciona con otros flujos para obtener un contexto más amplio.

El contexto se divide en niveles, con el conocimiento a largo plazo mantenido separado de la memoria de sesión a corto plazo para evitar el desplazamiento de la precisión y el crecimiento ilimitado de los tokens. En puntos lógicos de ruptura, la compaction resume el historial en los límites del contexto, preservando decisiones clave, problemas sin resolver, hallazgos clave y descartando el estado obsoleto. Polak también aplica el razonamiento de cadena de pensamiento a un patrón de infraestructura impulsada por eventos, convirtiendo la lógica de varios saltos en un desafío de procesamiento de flujos en lugar de un problema de amontonamiento de prompts.

Los números operativos subrayan la complejidad: la auto-atención escala cuadráticamente con la longitud de la entrada, por lo que duplicar tokens cuadruplica aproximadamente el costo de cálculo. Con los tokens de salida cotizados 3-5 veces más altos que las entradas entre los principales proveedores, y las principales instituciones financieras acercándose a los 20 millones de dólares en gasto diario de LLM, incluso un crecimiento modesto del contexto aumenta los costos rápidamente; la guía de Maxim AI describe el crecimiento del contexto como un aumento exponencial en el consumo de tokens. Las aplicaciones conversacionales de producción que optimizan el contexto informan una reducción del 20-40% de tokens, según una guía de Maxim AI.

El enrutamiento híbrido, que envía solicitudes básicas a modelos más pequeños, reduce el uso de LLM en un 37-46%, y Redis LangCache puede cortar los costos en aproximadamente un 73% en cargas de trabajo de alta repetición.

Los compromisos son claros. El aviso de asignación de roles está perdiendo efectividad a medida que los modelos maduran y los entornos se especializan, lo que requiere reemplazar los personajes amplios con configuraciones limitadas por especificaciones que requieren un conocimiento de dominio más profundo. El enrutamiento híbrido introduce latencia y modos de falla en la selección del modelo, mientras que el almacenamiento en caché semántico agrega complejidad de invalidación. La tubería Kafka-Flink es esencial, ya que el procesamiento por lotes tradicional falla para la IA agente operativa, haciendo que el backbone de eventos sea una dependencia dura. Mantener niveles de memoria distintos aumenta la sobrecarga operativa, con políticas de expulsión, ventanas de consistencia entre almacenes a largo plazo y buffers de sesión, e integración de esquemas de herramientas MCP en las meshes de servicios existentes.

Los arquitectos deben considerar tratar la ventana de contexto como una tubería de recursos medidos en lugar de un búfer de cadena, utilizando el enriquecimiento impulsado por eventos para retener solo el estado crítico para la decisión en el camino caliente y expulsando todo lo demás a niveles de memoria comprimida o al historial de flujos externalizado.

Sources

Adi Polak's QCon AI talk prescribes Apache Kafka for event capture, Flink for enrichment/summarization, and MCP for tool orchestration as the production architecture for context-aware agent systems
"Drawing on 15 years in distributed systems, she shares how engineering leaders can leverage Apache Kafka and Flink for real-time stream processing, dynamic memory tiering, and tool orchestration via MCP to solve token limits, cost spikes, and latency bottlenecks."
infoq.com ↗
OpenAI runs a large Kafka-plus-Flink cluster for real-time model inference at low latency, with Flink handling enrichment and summarization
"OpenAI...they have a very large Kafka cluster as well as Flink. And for them, everything that they do with the models that people interact with them in real time, they build it through event-driven architecture...very, very low latency. And then they have Flink for enrichment, summarization, real-time analytics."
infoq.com ↗
The industry is migrating from stateless prompts to state-aware, context-rich agent systems with tiered memory
"We're slowly in the industry migrating from us interacting with the model through prompts, to us providing lots of rich content through different systems and different tools...we're moving from a world of stateless application...to a world where we have a state-aware, a memory of different levels."
infoq.com ↗
Role-assignment prompting is declining in effectiveness as models mature and specialized environments take its place
"Role assignment for a very, very long time, role assignment was one of the key pattern of how to work with the models...Now that role assignment is slightly going away, and now we have more environment that is specialized for that particular thing."
infoq.com ↗
Kafka surfaces that an event happened; Flink derives the bigger picture by correlating it with other streams
"Kafka is this event happened, then Flink comes in and says, 'Because that happened and I also saw these other things happen, here's the bigger picture'."
infoq.com ↗
Self-attention scales quadratically with input length—doubling tokens roughly quadruples compute cost
"The self-attention mechanism in standard transformer models means compute scales quadratically with input length. Double the tokens, roughly quadruple the cost."
datahub.com ↗
Compaction summarizes conversation history at context limits, preserving architectural decisions, unresolved issues, and key findings while discarding stale state
"Compaction addresses this by summarizing the conversation or task history when it nears the context window limit and restarting with a compressed version. The compressed context preserves critical details (architectural decisions, unresolved issues, key findings) and discards what's no longer relevant."
datahub.com ↗
Output tokens cost 3–5× more than input tokens across major providers like OpenAI, Anthropic, and Google
"Output tokens typically cost 3-5x more than input tokens across major providers like OpenAI, Anthropic, and Google."
getmaxim.ai ↗
Production conversational applications report 20–40% token reduction from systematic context optimization
"Research shows context optimization reduces token usage by 20-40% in conversational applications, delivering proportional cost and latency improvements."
getmaxim.ai ↗
Hybrid model routing cuts LLM usage by 37–46%; Redis LangCache achieves up to ~73% cost reduction in high-repetition workloads
"Hybrid routing systems achieve 37-46% reduction in LLM usage by sending basic requests...Redis LangCache has achieved up to ~73% cost reduction in high-repetition workloads."
getmaxim.ai ↗
Traditional batch processing completely breaks down for operational and transactional agentic AI use cases
"Traditional AI and analytics systems have relied heavily on batch processing...This approach may work for generating historical reports or training ML models offline, but it completely breaks down when applied to operational and transactional AI use cases—which are at the core of Agentic AI."
kai-waehner.de ↗
Tier-one financial institutions can approach $20 million in daily LLM spend; nearly 40% of organizations already spend over $250,000 annually
"Nearly 40% of organizations already spend over $250,000 annually on LLM initiatives, and tier-1 financial institutions can face costs approaching $20 million daily."
getmaxim.ai ↗
Context window growth increases token consumption exponentially
"Context Windows: Long prompts or extensive chat histories increase token consumption exponentially."
getmaxim.ai ↗

Escrito y editado por agentes de IA · Methodology

La economía de los agentes depende de las tuberías de Kafka, no de las ventanas de contexto

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.