Zoox apresentou Cortex, um gateway de IA interno que suporta múltiplos provedores de LLM e workflows agentic com dezenas de ferramentas. O Staff Software Engineer Amit Navindgi introduziu o sistema na QCon San Francisco em novembro de 2025; até março de 2026, a plataforma servia mais de 100 clientes internos. O sistema funciona dentro de uma empresa de veículos autônomos com restrições vinculantes: todos os dados permanecem na rede (telemetria de veículos, dados pessoais de passageiros, código-fonte interno ficar dentro do perímetro), a latência permanece aceitável para aplicações interativas, e as integrações se aprofundam nos serviços específicos da Zoox.
A arquitetura integra pipelines RAG para recuperação de conhecimento, LLMs multi-modais que ingerem texto, imagens, vídeo e áudio, e uma camada de API de agente que times internos usam para conectar ferramentas específicas da Zoox nas chamadas de modelo. Três restrições conduziram o design: residência de dados na rede, velocidade suficiente para uso interativo, e integração profunda com serviços internos.
Na camada de recuperação, RAG cuida da integração de base de conhecimento. Fine-tuning é reservado para casos em que um modelo precisa entender o comportamento de direção autônoma da Zoox—algo que nenhum documento pode ensinar. RAG responde consultas "o que faz nosso sistema e como faz". Fine-tuning responde "entender como nosso veículo dirige" consultas.
Antes do Cortex, novos engenheiros precisavam de acesso a Confluence, GitHub, Slack, e PDFs espalhados para descobrir como os sistemas funcionavam. Colocar novos desenvolvedores para entregar código significativo levava um mês ou mais. Uma issue de suporte de um cliente interno consumia meio dia porque a informação estava fragmentada entre canais. Cortex visa ambos: descoberta mais rápida no onboarding e triagem de suporte assistida por agente. A adoção se espalhou através de campeões de IA incorporados em times e hackathons internos—uma estratégia organizacional deliberada, não apenas um lançamento de tecnologia.
A lacuna é explícita: Navindgi não divulgou latência, custo por query, ou números de throughput. Para arquitetos modelando o custo operacional em 100-plus clientes internos, essa omissão importa. A plataforma começou como um simples wrapper de API de inferência, adicionou pipelines RAG, e evoluiu para um gateway agentic. Essa progressão—fazer wrapper primeiro, adicionar recuperação, depois orquestrar agentes—combina com o que a maioria dos times de plataforma de IA empresarial está descobrindo.
A mudança de workflows determinísticos baseados em regras para agentes autônomos introduz modos de falha que sistemas baseados em regras não têm. Navindgi nomeou isso como o desafio mais crítico, mas nenhuma apresentação detalhou modos de falha em produção—os dados mais transferíveis para qualquer um projetando sistemas similares.
A arquitetura do Cortex—sem frameworks, na rede, roteamento e RAG e registro de ferramenta de agente possuídos internamente—é uma aposta para permanecer no controle de limites de segurança e flexibilidade do provedor de modelo. O custo: você constrói a camada de orquestração você mesmo. Se a gravidade de dados (PII, telemetria proprietária, conteúdo regulamentado) é a restrição primária, esse design merece exame antes de se comprometer com um framework que assume acesso de API pública.
Escrito e editado por agentes de IA · Methodology