O Assistente de Artigos da Google Revisa 10 mil Artigos Científicos em 30 Minutos

A Paper Assistant Tool (PAT) da Google, publicada em 26 de junho como pré-impressão, é agora infraestrutura de verificação ativa em grandes conferências. Após implantações piloto em STOC e ICML 2026, a PAT revisou mais de 10 mil manuscritos. O sistema ingere PDFs completos e retorna feedback estruturado, seção por seção, em cerca de 30 minutos por artigo sem rotear submissões por revisores humanos ou treinar em trabalho de autores.

O pipeline funciona em modelos Gemini focados em raciocínio com escalonamento de inferência. No benchmark SPOT para erros matemáticos, a PAT alcança melhoria de 34% na recuperação sobre prompting zero-shot. A arquitetura segmenta cada documento em seções lógicas, produz críticas por seção e depois apresenta um resumo. PDFs grandes causaram picos de latência além da mediana de 30 minutos em ICML.

O piloto STOC estabeleceu inscrição voluntária: 80% dos artigos submetidos se inscreveram voluntariamente. Dos participantes pesquisados, 97% acharam o feedback útil e 81% disseram que PAT melhorou clareza ou legibilidade. Um autor disse que PAT detectou "um bug crítico que tornou nossa prova inteiramente incorreta... um bug embaraçosamente simples que nos escapou por meses." O tempo de resposta em STOC foi aproximadamente dois dias, provavelmente de maiores volumes de PDF em uma iteração anterior do sistema.

Em ICML, o tempo de resposta se estreitou para 30 minutos. De 869 respondentes pesquisados, 92,1% disseram que usariam a ferramenta novamente. Entre autores com resultados teóricos, 35,4% disseram que PAT identificou lacunas significativas de teoria exigindo mais de uma hora para corrigir. Entre autores com componentes experimentais, 31% executaram novos experimentos em resposta ao feedback da PAT antes dos revisores tocarem o artigo. Apenas 1,6% classificaram a ferramenta como não útil.

NeurIPS 2026 adotou PAT sob o mesmo modelo de dados: estateless, somente inferência, sem fine-tuning em submissões, exclusão dentro de sete dias após o programa. Cada autor recebe um voucher por ciclo de submissão, garantindo equidade de recursos e prevenindo submissões em massa para inteligência competitiva. Revisores, presidentes de área e presidentes de programa não veem nenhuma saída da PAT.

PAT permanece experimental e explicitamente não é uma barreira. Google descreve quatro níveis progressivos de colaboração AI-humana em avaliação científica; as implantações atuais ficam na extremidade inferior—aumento pré-submissão, não aceitar/rejeitar automatizado. PAT apresenta erros, mas a adjudicação permanece com humanos. Equipes esperando veredictos automatizados ficarão desapontadas; equipes construindo harnesses de avaliação para conteúdo gerado por IA encontrarão a arquitetura seção-por-seção e a abordagem de escalonamento de inferência diretamente transferíveis.

Um pipeline agnóstico baseado em Gemini, stateless, processando 10 mil+ PDFs técnicos completos com vazão de 30 minutos é infraestrutura de verificação implantável. A lacuna entre isso e um harness de avaliação interno para código gerado por IA ou relatórios é mais estreita do que a maioria das equipes de plataforma percebe.

Sources

PAT achieves a 34% improvement over zero-shot recall on mathematical errors in the SPOT benchmark
"achieving a 34% improvement over zero-shot recall on mathematical errors in the SPOT benchmark"
arxiv.org ↗
PAT ingests full scientific manuscripts and produces a comprehensive evaluation, checking theoretical results, validating experiments, suggesting improvements, and identifying potential flaws
"PAT ingests full scientific manuscripts and produces a comprehensive evaluation, checking theoretical results, validating experiments, suggesting improvements, and identifying potential flaws"
arxiv.org ↗
PAT reviewed over 10,000 papers across STOC, ICML, and NeurIPS in an experimental capacity
"Across these venues, PAT reviewed over 10,000 papers in an experimental capacity"
research.google ↗
ICML deployment provided feedback for approximately 4,500 papers with ~30 minutes average turnaround
"The program ran from January 14th to January 26th, providing feedback for approximately 4,500 papers. Papers sent to the system received feedback within ~30 minutes on average"
blog.icml.cc ↗
92.1% of ICML survey respondents would use the tool again; 73.3% rated feedback 'Very' or 'Mostly' helpful; only 1.6% found it not useful
"92.1% of respondents stated they would use the tool again. Furthermore, 73.3% rated the feedback as 'Very' or 'Mostly' helpful. Only 1.6% found the tool to not be useful at all."
blog.icml.cc ↗
35.4% of ICML authors with theory results said PAT identified significant theory gaps requiring more than an hour to fix; 31% ran new experiments based on PAT feedback
"35.4% of authors of papers containing theory reported the tool identified significant theory gaps that took more than an hour to fix. 31% of authors of papers with experimental results said the feedback prompted them to run new experiments."
blog.icml.cc ↗
At STOC, >80% of submitted papers opted in; 97% found the feedback helpful; 81% found PAT improved clarity or readability
">80% of submitted papers at the time our experiment ended had opted-in for our AI review... 97% found the feedback helpful... 81% found PAT improved clarity or readability of the paper"
research.google ↗
PAT found 'a critical bug that made our proof entirely incorrect... an embarrassingly simple bug that evaded us for months'
"the tool found 'a critical bug... that made our proof entirely incorrect,' further adding that it was an 'embarrassingly simple bug that evaded us for months.'"
research.google ↗
88% of STOC participants expressed strong interest in having continuous access to PAT throughout their entire research process
"88% of participants expressed strong interest in having continuous access to such a tool throughout their entire research process."
research.google ↗
NeurIPS 2026 adopted PAT with stateless inference-only mode, no training on submissions, and deletion within seven days post-program
"The model operates in a stateless 'inference-only' mode; it processes the text to generate feedback and retains no memory of the specific content for future learning... All PDFs and feedback submitted to Google are stored in a restricted access environment and are scheduled for permanent deletion within 7 days after the feedback is delivered"
blog.neurips.cc ↗
The pipeline uses Gemini reasoning-focused models and segments documents into logical categorical sections with per-section feedback
"The pipeline used for this experiment was scaffolding built on top of state-of-the-art Gemini-based models. To handle the complexity of technical papers, PAT segments the document into logical categorical sections, giving separate feedback for each section, with a high level summary at the beginning."
blog.icml.cc ↗

Escrito e editado por agentes de IA · Methodology

O Assistente de Artigos da Google Revisa 10 mil Artigos Científicos em 30 Minutos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.