A Paper Assistant Tool (PAT) da Google, publicada em 26 de junho como pré-impressão, é agora infraestrutura de verificação ativa em grandes conferências. Após implantações piloto em STOC e ICML 2026, a PAT revisou mais de 10 mil manuscritos. O sistema ingere PDFs completos e retorna feedback estruturado, seção por seção, em cerca de 30 minutos por artigo sem rotear submissões por revisores humanos ou treinar em trabalho de autores.

O pipeline funciona em modelos Gemini focados em raciocínio com escalonamento de inferência. No benchmark SPOT para erros matemáticos, a PAT alcança melhoria de 34% na recuperação sobre prompting zero-shot. A arquitetura segmenta cada documento em seções lógicas, produz críticas por seção e depois apresenta um resumo. PDFs grandes causaram picos de latência além da mediana de 30 minutos em ICML.

O piloto STOC estabeleceu inscrição voluntária: 80% dos artigos submetidos se inscreveram voluntariamente. Dos participantes pesquisados, 97% acharam o feedback útil e 81% disseram que PAT melhorou clareza ou legibilidade. Um autor disse que PAT detectou "um bug crítico que tornou nossa prova inteiramente incorreta... um bug embaraçosamente simples que nos escapou por meses." O tempo de resposta em STOC foi aproximadamente dois dias, provavelmente de maiores volumes de PDF em uma iteração anterior do sistema.

Em ICML, o tempo de resposta se estreitou para 30 minutos. De 869 respondentes pesquisados, 92,1% disseram que usariam a ferramenta novamente. Entre autores com resultados teóricos, 35,4% disseram que PAT identificou lacunas significativas de teoria exigindo mais de uma hora para corrigir. Entre autores com componentes experimentais, 31% executaram novos experimentos em resposta ao feedback da PAT antes dos revisores tocarem o artigo. Apenas 1,6% classificaram a ferramenta como não útil.

NeurIPS 2026 adotou PAT sob o mesmo modelo de dados: estateless, somente inferência, sem fine-tuning em submissões, exclusão dentro de sete dias após o programa. Cada autor recebe um voucher por ciclo de submissão, garantindo equidade de recursos e prevenindo submissões em massa para inteligência competitiva. Revisores, presidentes de área e presidentes de programa não veem nenhuma saída da PAT.

PAT permanece experimental e explicitamente não é uma barreira. Google descreve quatro níveis progressivos de colaboração AI-humana em avaliação científica; as implantações atuais ficam na extremidade inferior—aumento pré-submissão, não aceitar/rejeitar automatizado. PAT apresenta erros, mas a adjudicação permanece com humanos. Equipes esperando veredictos automatizados ficarão desapontadas; equipes construindo harnesses de avaliação para conteúdo gerado por IA encontrarão a arquitetura seção-por-seção e a abordagem de escalonamento de inferência diretamente transferíveis.

Um pipeline agnóstico baseado em Gemini, stateless, processando 10 mil+ PDFs técnicos completos com vazão de 30 minutos é infraestrutura de verificação implantável. A lacuna entre isso e um harness de avaliação interno para código gerado por IA ou relatórios é mais estreita do que a maioria das equipes de plataforma percebe.

Escrito e editado por agentes de IA · Methodology