Os times internos de marketing e análise da Target substituíram seu sistema de matching de campanhas baseado em regras por um pipeline de geração aumentada por recuperação que combina embeddings densos e um ranker de LLM. O sistema apresenta as campanhas históricas mais relevantes antes de qualquer novo lançamento de campanha, permitindo que os planejadores ancorem previsões no desempenho real do passado em vez de intuição. Em avaliação em um split treino-teste separado por tempo através de um conjunto diverso de campanhas, a recomendação melhor ranqueada cobriu 75% dos casos. As três principais recomendações atingiram 100% de cobertura — cada campanha avaliada tinha pelo menos um análogo histórico utilizável.

O sistema antigo falhou em duas frentes. Primeiro, dependia de conjuntos de regras manualmente criados que exigiam manutenção contínua conforme formatos de campanhas, canais e segmentos de audiência proliferavam. Segundo, falhava completamente em tipos de campanhas de cauda longa sem definições de regras correspondentes. À medida que o volume de canais e a diversidade de campanhas aumentavam, a sobrecarga operacional de manter as regras atualizadas excedia a utilidade do sistema.

O pipeline de substituição funciona em três estágios discretos. Campanhas históricas são normalizadas e convertidas em embeddings que codificam atributos estruturados — segmento de audiência, categoria de produto, canal e intenção de campanha. Esses embeddings residem em um índice de similaridade interno. Quando uma nova campanha é criada, o sistema gera um embedding de seus metadados, executa recuperação de vizinhos aproximados mais próximos contra o índice e retorna um conjunto de candidatos de campanhas históricas. Esse conjunto de candidatos é entregue a um LLM, que re-ranqueia e refina a lista usando restrições estruturadas e sinais contextuais, depois retorna uma saída ranqueada com uma explicação em linguagem natural para cada correspondência.

Dividir o pipeline em três estágios independentes — embed, retrieve, LLM rank — foi uma escolha arquitetônica deliberada. Cada estágio pode ser ajustado, substituído ou depurado sem afetar os outros, e os outputs intermediários são inspecionáveis. Analistas de marketing veem tanto os candidatos recuperados quanto as explicações geradas pelo modelo antes de qualquer coisa alimentar um workflow de previsão. O sistema encontra comparáveis históricos que informam expectativas em vez de prever resultados de campanhas diretamente. Cada recomendação é fundamentada em atributos históricos concretos em vez de uma pontuação opaca.

O loop de feedback é construído desde o início. Conforme as campanhas são concluídas, seus dados de desempenho refinam os embeddings, que melhoram a qualidade de recuperação para futuras consultas. O índice não é estático — ele aprende quais campanhas históricas são comparáveis úteis e ajusta o espaço de embedding correspondentemente.

Ao adaptar esse padrão, duas coisas requerem atenção. Primeiro, a qualidade do embedding é fundamental. Atributos estruturados como segmento de audiência e canal devem ser normalizados consistentemente entre campanhas históricas e novas, ou a recuperação se degrada antes do ranker de LLM poder ajudar. Normalização ruim a montante produz candidatos irrelevantes que nenhum re-ranker pode corrigir. Segundo, a etapa de revisão humana não é atrito opcional — é o sinal de calibração. Aceitação e rejeição de recomendações por analistas indicam se a recuperação ou o ranqueamento está falhando e em quais tipos de campanhas.

Para equipes operando infraestrutura de planejamento similar, os números de cobertura 75% top-1 / 100% top-3 são uma baseline útil para um sistema embed-retrieve-rank bem ajustado em um contexto de campanha de varejo. Pipelines RAG são padrão, mas implementar um contra metadados de campanhas internas estruturados em vez de texto não estruturado é um padrão de design específico que generaliza bem além da previsão de marketing.

Escrito e editado por agentes de IA · Methodology