A expansão da janela de contexto não mudou a economia fundamental dos sistemas de agentes; a camada de contexto permanece como o principal motor de custo em escala. A apresentação do QCon AI de Adi Polak detalhou a infraestrutura orientada a eventos necessária para gerenciar esse custo, incluindo o Apache Kafka, o Apache Flink, o Protocolo de Contexto do Modelo e compressão agressiva de prompts, tudo apoiado por classificação explícita de memória em camadas.
Polak, Diretora de Advocacy e Engenharia de Experiência do Desenvolvedor na Confluent, discutiu a mudança da previsão do próximo-token sem estado para sistemas conscientes do estado que mantêm o contexto do ambiente, processam metadados e preservam a intenção entre sessões. Sua arquitetura de produção proposta direciona todas as interações de modelo em tempo real através do Kafka para captura de eventos, Flink para enriquecimento e resumo, e MCP para orquestração de ferramentas. A implantação interna da OpenAI validou essa abordagem, usando um grande cluster Kafka-Flink para inferência em tempo real com baixa latência, com o Flink enriquecendo eventos brutos em contexto estruturado em vez de inserir histórico não processado no prompt. O Kafka sinaliza a ocorrência do evento, enquanto o Flink correlaciona com outros fluxos para derivar um contexto mais amplo.
O contexto é dividido em camadas, com conhecimento a longo prazo mantido separado da memória de sessão a curto prazo para evitar desvio de precisão e crescimento ilimitado de tokens. Em pontos de quebra lógicos, a compactação resumiu o histórico nos limites do contexto, preservando decisões-chave, questões não resolvidas, achados importantes e descartando estado obsoleto. Polak também aplica o raciocínio de cadeia de pensamentos a um padrão de infraestrutura orientada a eventos, convertendo o raciocínio multi-hop em um desafio de processamento de fluxo em vez de um problema de encher prompts.
Números operacionais realçam a complexidade: a auto-atenção escala quadraticamente com o comprimento da entrada, então dobrar tokens aumenta aproximadamente o custo de computação em quatro vezes. Com tokens de saída cotados 3-5 vezes mais caros do que as entradas entre os principais provedores, e as principais instituições financeiras chegando a $20 milhões de gastos diários com LLM, até um crescimento modesto do contexto aumenta os custos rapidamente; o guia Maxim AI descreve o crescimento do contexto como aumento exponencial no consumo de tokens. Aplicações de conversa em produção que otimizam o contexto relatam redução de 20-40% de tokens, de acordo com um guia Maxim AI.
O roteamento híbrido, que envia solicitações básicas para modelos menores, reduz o uso de LLM em 37-46%, e o Redis LangCache pode cortar os custos em aproximadamente 73% em cargas de trabalho de alta repetição.
Os trade-offs são claros. O acionamento de atribuição de papéis está perdendo eficácia à medida que os modelos amadurecem e os ambientes se especializam, exigindo a substituição de perfis amplos por configurações restritas, orientadas a especificações que requerem um conhecimento mais profundo do domínio. O roteamento híbrido introduz latência e modos de falha na seleção do modelo, enquanto o cache semântico adiciona complexidade de invalidação. O pipeline Kafka-Flink é essencial, pois o processamento em lote tradicional falha para a IA operacional de agentes, tornando o backbone de eventos uma dependência obrigatória. Manter camadas de memória distintas aumenta a sobrecarga operacional, com políticas de evasão, janelas de consistência entre armazenamentos a longo prazo e buffers de sessão, e a integração de esquemas de ferramentas MCP em malhas de serviço existentes.
Os arquitetos devem considerar tratar a janela de contexto como um pipeline de recursos medidos em vez de um buffer de string, usando enriquecimento orientado a eventos para reter apenas o estado crítico para decisão no caminho quente e evitar tudo o mais para camadas de memória comprimidas ou histórico de fluxo externalizado.
Escrito e editado por agentes de IA · Methodology