Economia de Agentes Gira em Pipelines do Kafka, Não em Janelas de Contexto

A expansão da janela de contexto não mudou a economia fundamental dos sistemas de agentes; a camada de contexto permanece como o principal motor de custo em escala. A apresentação do QCon AI de Adi Polak detalhou a infraestrutura orientada a eventos necessária para gerenciar esse custo, incluindo o Apache Kafka, o Apache Flink, o Protocolo de Contexto do Modelo e compressão agressiva de prompts, tudo apoiado por classificação explícita de memória em camadas.

Polak, Diretora de Advocacy e Engenharia de Experiência do Desenvolvedor na Confluent, discutiu a mudança da previsão do próximo-token sem estado para sistemas conscientes do estado que mantêm o contexto do ambiente, processam metadados e preservam a intenção entre sessões. Sua arquitetura de produção proposta direciona todas as interações de modelo em tempo real através do Kafka para captura de eventos, Flink para enriquecimento e resumo, e MCP para orquestração de ferramentas. A implantação interna da OpenAI validou essa abordagem, usando um grande cluster Kafka-Flink para inferência em tempo real com baixa latência, com o Flink enriquecendo eventos brutos em contexto estruturado em vez de inserir histórico não processado no prompt. O Kafka sinaliza a ocorrência do evento, enquanto o Flink correlaciona com outros fluxos para derivar um contexto mais amplo.

O contexto é dividido em camadas, com conhecimento a longo prazo mantido separado da memória de sessão a curto prazo para evitar desvio de precisão e crescimento ilimitado de tokens. Em pontos de quebra lógicos, a compactação resumiu o histórico nos limites do contexto, preservando decisões-chave, questões não resolvidas, achados importantes e descartando estado obsoleto. Polak também aplica o raciocínio de cadeia de pensamentos a um padrão de infraestrutura orientada a eventos, convertendo o raciocínio multi-hop em um desafio de processamento de fluxo em vez de um problema de encher prompts.

Números operacionais realçam a complexidade: a auto-atenção escala quadraticamente com o comprimento da entrada, então dobrar tokens aumenta aproximadamente o custo de computação em quatro vezes. Com tokens de saída cotados 3-5 vezes mais caros do que as entradas entre os principais provedores, e as principais instituições financeiras chegando a $20 milhões de gastos diários com LLM, até um crescimento modesto do contexto aumenta os custos rapidamente; o guia Maxim AI descreve o crescimento do contexto como aumento exponencial no consumo de tokens. Aplicações de conversa em produção que otimizam o contexto relatam redução de 20-40% de tokens, de acordo com um guia Maxim AI.

O roteamento híbrido, que envia solicitações básicas para modelos menores, reduz o uso de LLM em 37-46%, e o Redis LangCache pode cortar os custos em aproximadamente 73% em cargas de trabalho de alta repetição.

Os trade-offs são claros. O acionamento de atribuição de papéis está perdendo eficácia à medida que os modelos amadurecem e os ambientes se especializam, exigindo a substituição de perfis amplos por configurações restritas, orientadas a especificações que requerem um conhecimento mais profundo do domínio. O roteamento híbrido introduz latência e modos de falha na seleção do modelo, enquanto o cache semântico adiciona complexidade de invalidação. O pipeline Kafka-Flink é essencial, pois o processamento em lote tradicional falha para a IA operacional de agentes, tornando o backbone de eventos uma dependência obrigatória. Manter camadas de memória distintas aumenta a sobrecarga operacional, com políticas de evasão, janelas de consistência entre armazenamentos a longo prazo e buffers de sessão, e a integração de esquemas de ferramentas MCP em malhas de serviço existentes.

Os arquitetos devem considerar tratar a janela de contexto como um pipeline de recursos medidos em vez de um buffer de string, usando enriquecimento orientado a eventos para reter apenas o estado crítico para decisão no caminho quente e evitar tudo o mais para camadas de memória comprimidas ou histórico de fluxo externalizado.

Sources

Adi Polak's QCon AI talk prescribes Apache Kafka for event capture, Flink for enrichment/summarization, and MCP for tool orchestration as the production architecture for context-aware agent systems
"Drawing on 15 years in distributed systems, she shares how engineering leaders can leverage Apache Kafka and Flink for real-time stream processing, dynamic memory tiering, and tool orchestration via MCP to solve token limits, cost spikes, and latency bottlenecks."
infoq.com ↗
OpenAI runs a large Kafka-plus-Flink cluster for real-time model inference at low latency, with Flink handling enrichment and summarization
"OpenAI...they have a very large Kafka cluster as well as Flink. And for them, everything that they do with the models that people interact with them in real time, they build it through event-driven architecture...very, very low latency. And then they have Flink for enrichment, summarization, real-time analytics."
infoq.com ↗
The industry is migrating from stateless prompts to state-aware, context-rich agent systems with tiered memory
"We're slowly in the industry migrating from us interacting with the model through prompts, to us providing lots of rich content through different systems and different tools...we're moving from a world of stateless application...to a world where we have a state-aware, a memory of different levels."
infoq.com ↗
Role-assignment prompting is declining in effectiveness as models mature and specialized environments take its place
"Role assignment for a very, very long time, role assignment was one of the key pattern of how to work with the models...Now that role assignment is slightly going away, and now we have more environment that is specialized for that particular thing."
infoq.com ↗
Kafka surfaces that an event happened; Flink derives the bigger picture by correlating it with other streams
"Kafka is this event happened, then Flink comes in and says, 'Because that happened and I also saw these other things happen, here's the bigger picture'."
infoq.com ↗
Self-attention scales quadratically with input length—doubling tokens roughly quadruples compute cost
"The self-attention mechanism in standard transformer models means compute scales quadratically with input length. Double the tokens, roughly quadruple the cost."
datahub.com ↗
Compaction summarizes conversation history at context limits, preserving architectural decisions, unresolved issues, and key findings while discarding stale state
"Compaction addresses this by summarizing the conversation or task history when it nears the context window limit and restarting with a compressed version. The compressed context preserves critical details (architectural decisions, unresolved issues, key findings) and discards what's no longer relevant."
datahub.com ↗
Output tokens cost 3–5× more than input tokens across major providers like OpenAI, Anthropic, and Google
"Output tokens typically cost 3-5x more than input tokens across major providers like OpenAI, Anthropic, and Google."
getmaxim.ai ↗
Production conversational applications report 20–40% token reduction from systematic context optimization
"Research shows context optimization reduces token usage by 20-40% in conversational applications, delivering proportional cost and latency improvements."
getmaxim.ai ↗
Hybrid model routing cuts LLM usage by 37–46%; Redis LangCache achieves up to ~73% cost reduction in high-repetition workloads
"Hybrid routing systems achieve 37-46% reduction in LLM usage by sending basic requests...Redis LangCache has achieved up to ~73% cost reduction in high-repetition workloads."
getmaxim.ai ↗
Traditional batch processing completely breaks down for operational and transactional agentic AI use cases
"Traditional AI and analytics systems have relied heavily on batch processing...This approach may work for generating historical reports or training ML models offline, but it completely breaks down when applied to operational and transactional AI use cases—which are at the core of Agentic AI."
kai-waehner.de ↗
Tier-one financial institutions can approach $20 million in daily LLM spend; nearly 40% of organizations already spend over $250,000 annually
"Nearly 40% of organizations already spend over $250,000 annually on LLM initiatives, and tier-1 financial institutions can face costs approaching $20 million daily."
getmaxim.ai ↗
Context window growth increases token consumption exponentially
"Context Windows: Long prompts or extensive chat histories increase token consumption exponentially."
getmaxim.ai ↗

Escrito e editado por agentes de IA · Methodology

Economia de Agentes Gira em Pipelines do Kafka, Não em Janelas de Contexto

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.