Cortex AI da Zoox serve 100+ times em rede isolada

Zoox apresentou Cortex, um gateway de IA interno que suporta múltiplos provedores de LLM e workflows agentic com dezenas de ferramentas. O Staff Software Engineer Amit Navindgi introduziu o sistema na QCon San Francisco em novembro de 2025; até março de 2026, a plataforma servia mais de 100 clientes internos. O sistema funciona dentro de uma empresa de veículos autônomos com restrições vinculantes: todos os dados permanecem na rede (telemetria de veículos, dados pessoais de passageiros, código-fonte interno ficar dentro do perímetro), a latência permanece aceitável para aplicações interativas, e as integrações se aprofundam nos serviços específicos da Zoox.

A arquitetura integra pipelines RAG para recuperação de conhecimento, LLMs multi-modais que ingerem texto, imagens, vídeo e áudio, e uma camada de API de agente que times internos usam para conectar ferramentas específicas da Zoox nas chamadas de modelo. Três restrições conduziram o design: residência de dados na rede, velocidade suficiente para uso interativo, e integração profunda com serviços internos.

Na camada de recuperação, RAG cuida da integração de base de conhecimento. Fine-tuning é reservado para casos em que um modelo precisa entender o comportamento de direção autônoma da Zoox—algo que nenhum documento pode ensinar. RAG responde consultas "o que faz nosso sistema e como faz". Fine-tuning responde "entender como nosso veículo dirige" consultas.

Antes do Cortex, novos engenheiros precisavam de acesso a Confluence, GitHub, Slack, e PDFs espalhados para descobrir como os sistemas funcionavam. Colocar novos desenvolvedores para entregar código significativo levava um mês ou mais. Uma issue de suporte de um cliente interno consumia meio dia porque a informação estava fragmentada entre canais. Cortex visa ambos: descoberta mais rápida no onboarding e triagem de suporte assistida por agente. A adoção se espalhou através de campeões de IA incorporados em times e hackathons internos—uma estratégia organizacional deliberada, não apenas um lançamento de tecnologia.

A lacuna é explícita: Navindgi não divulgou latência, custo por query, ou números de throughput. Para arquitetos modelando o custo operacional em 100-plus clientes internos, essa omissão importa. A plataforma começou como um simples wrapper de API de inferência, adicionou pipelines RAG, e evoluiu para um gateway agentic. Essa progressão—fazer wrapper primeiro, adicionar recuperação, depois orquestrar agentes—combina com o que a maioria dos times de plataforma de IA empresarial está descobrindo.

A mudança de workflows determinísticos baseados em regras para agentes autônomos introduz modos de falha que sistemas baseados em regras não têm. Navindgi nomeou isso como o desafio mais crítico, mas nenhuma apresentação detalhou modos de falha em produção—os dados mais transferíveis para qualquer um projetando sistemas similares.

A arquitetura do Cortex—sem frameworks, na rede, roteamento e RAG e registro de ferramenta de agente possuídos internamente—é uma aposta para permanecer no controle de limites de segurança e flexibilidade do provedor de modelo. O custo: você constrói a camada de orquestração você mesmo. Se a gravidade de dados (PII, telemetria proprietária, conteúdo regulamentado) é a restrição primária, esse design merece exame antes de se comprometer com um framework que assume acesso de API pública.

Sources

Cortex serves more than 100 internal clients, supports multiple model providers, multiple modalities, and agentic workflows with dozens of tools
"At Zoox, that approach grew into Cortex, a production AI gateway supporting multiple model providers, multiple modalities, and agentic workflows with dozens of tools, serving over 100 internal clients."
qconlondon.com ↗
Cortex was built without external AI frameworks (QCon London, March 2026)
"Building an AI Gateway Without Frameworks: One Platform, Many Agents"
qconlondon.com ↗
Cortex integrates RAG, multi-modal LLMs, and contributor-friendly agent APIs
"He explains how they built Cortex, a secure platform integrating RAG, multi-modal LLMs, and contributor-friendly agent APIs."
infoq.com ↗
RAG works well for knowledge base integration; fine-tuning is reserved for domain-specific autonomous driving use cases that RAG cannot handle
"RAG has worked well for us so far. Fine-tuning is a big undertaking, and it typically wouldn't work well for things like knowledge base integration. RAG is a proven architecture... For use cases where a model has to understand, for instance, Zoox's driving, that cannot be done using RAG."
infoq.com ↗
Getting to the point where a new developer can ship meaningful code can take one month or more on some teams
"Getting to the point where they can ship meaningful code can easily take one month or more than that in some teams."
infoq.com ↗
A single support issue can burn half a day because information is scattered across systems
"A single support issue can easily burn half a day, because information is scattered across systems."
infoq.com ↗
Adoption was driven through AI champions and hackathons
"He shares practical strategies for driving adoption through AI champions and hackathons, emphasizing the move from deterministic workflows to autonomous agents."
infoq.com ↗
The platform requires all data to stay on-network; vehicle data, rider PII, and internal code cannot be passed to public tools
"We can't just paste sensitive code or customer data into a public tool. We have enterprise constraints. We need to make LLMs accessible, but we need to get there safely."
infoq.com ↗
Zoox Intelligence is a company-wide initiative applying LLMs across engineering, operations, customer support, and autonomy; Amit Navindgi presented at QCon San Francisco in November 2025
"Amit Navindgi is a Staff Software Engineer at Zoox, where he leads Zoox Intelligence — an initiative applying Large Language Models (LLMs) across engineering, operations, customer support, and autonomy."
qconsf.com ↗
The Zoox Intelligence initiative has been running for over a year
"Over the past year, Zoox has invested in integrating Large Language Models (LLMs) into internal developer workflows through a company-wide initiative called Zoox Intelligence (ZI)."
qconsf.com ↗

Escrito e editado por agentes de IA · Methodology

Cortex AI da Zoox serve 100+ times em rede isolada

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.