El Asistente de Artículos de Google Revisa 10 mil Artículos Científicos en 30 Minutos

Paper Assistant Tool (PAT) de Google, publicada el 26 de junio como preimpresión, ahora es infraestructura de verificación activa en grandes conferencias. Después de implementaciones piloto en STOC e ICML 2026, PAT ha revisado más de 10 mil manuscritos. El sistema ingiere PDFs completos y retorna retroalimentación estructurada, sección por sección, en aproximadamente 30 minutos por artículo sin enrutar envíos a través de revisores humanos ni entrenar en trabajo de autores.

El pipeline funciona con modelos Gemini enfocados en razonamiento con escalonamiento de inferencia. En el benchmark SPOT para errores matemáticos, PAT logra una mejora de 34% en recuperación sobre prompting cero-shot. La arquitectura segmenta cada documento en secciones lógicas, produce críticas por sección y luego presenta un resumen. Los PDFs grandes causaron picos de latencia más allá de la mediana de 30 minutos en ICML.

El piloto STOC estableció inscripción voluntaria: 80% de los artículos enviados se inscribieron voluntariamente. De los participantes encuestados, 97% encontró la retroalimentación útil y 81% dijo que PAT mejoró clareza o legibilidad. Un autor dijo que PAT detectó "un bug crítico que hizo nuestra demostración completamente incorrecta... un bug embarazosamente simple que nos eludió durante meses." El tiempo de respuesta en STOC fue aproximadamente dos días, probablemente por mayores volúmenes de PDF en una iteración anterior del sistema.

En ICML, el tiempo de respuesta se estrechó a 30 minutos. De 869 encuestados, 92,1% dijo que usaría la herramienta nuevamente. Entre autores con resultados teóricos, 35,4% dijo que PAT identificó brechas significativas de teoría que requieren más de una hora para corregir. Entre autores con componentes experimentales, 31% realizó nuevos experimentos en respuesta a la retroalimentación de PAT antes de que los revisores tocaran el artículo. Solo 1,6% calificó la herramienta como no útil.

NeurIPS 2026 adoptó PAT bajo el mismo modelo de datos: sin estado, solo inferencia, sin fine-tuning en envíos, eliminación dentro de siete días después del programa. Cada autor recibe un voucher por ciclo de envío, garantizando equidad de recursos e impidiendo envíos masivos para inteligencia competitiva. Revisores, presidentes de área y presidentes de programa no ven ninguna salida de PAT.

PAT permanece experimental y explícitamente no es una barrera. Google describe cuatro niveles progresivos de colaboración IA-humana en evaluación científica; las implementaciones actuales se encuentran en el extremo inferior—aumento preenvío, no aceptar/rechazar automatizado. PAT expone errores, pero la adjudicación permanece con humanos. Los equipos que esperan veredictos automatizados se decepcionarán; los equipos que construyen harnesses de evaluación para contenido generado por IA encontrarán la arquitectura sección-por-sección y el enfoque de escalonamiento de inferencia directamente transferibles.

Un pipeline agnóstico basado en Gemini, sin estado, procesando 10 mil+ PDFs técnicos completos con rendimiento de 30 minutos es infraestructura de verificación desplegable. La brecha entre eso y un harness de evaluación interno para código generado por IA o reportes es más estrecha de lo que la mayoría de equipos de plataforma se dan cuenta.

Sources

PAT achieves a 34% improvement over zero-shot recall on mathematical errors in the SPOT benchmark
"achieving a 34% improvement over zero-shot recall on mathematical errors in the SPOT benchmark"
arxiv.org ↗
PAT ingests full scientific manuscripts and produces a comprehensive evaluation, checking theoretical results, validating experiments, suggesting improvements, and identifying potential flaws
"PAT ingests full scientific manuscripts and produces a comprehensive evaluation, checking theoretical results, validating experiments, suggesting improvements, and identifying potential flaws"
arxiv.org ↗
PAT reviewed over 10,000 papers across STOC, ICML, and NeurIPS in an experimental capacity
"Across these venues, PAT reviewed over 10,000 papers in an experimental capacity"
research.google ↗
ICML deployment provided feedback for approximately 4,500 papers with ~30 minutes average turnaround
"The program ran from January 14th to January 26th, providing feedback for approximately 4,500 papers. Papers sent to the system received feedback within ~30 minutes on average"
blog.icml.cc ↗
92.1% of ICML survey respondents would use the tool again; 73.3% rated feedback 'Very' or 'Mostly' helpful; only 1.6% found it not useful
"92.1% of respondents stated they would use the tool again. Furthermore, 73.3% rated the feedback as 'Very' or 'Mostly' helpful. Only 1.6% found the tool to not be useful at all."
blog.icml.cc ↗
35.4% of ICML authors with theory results said PAT identified significant theory gaps requiring more than an hour to fix; 31% ran new experiments based on PAT feedback
"35.4% of authors of papers containing theory reported the tool identified significant theory gaps that took more than an hour to fix. 31% of authors of papers with experimental results said the feedback prompted them to run new experiments."
blog.icml.cc ↗
At STOC, >80% of submitted papers opted in; 97% found the feedback helpful; 81% found PAT improved clarity or readability
">80% of submitted papers at the time our experiment ended had opted-in for our AI review... 97% found the feedback helpful... 81% found PAT improved clarity or readability of the paper"
research.google ↗
PAT found 'a critical bug that made our proof entirely incorrect... an embarrassingly simple bug that evaded us for months'
"the tool found 'a critical bug... that made our proof entirely incorrect,' further adding that it was an 'embarrassingly simple bug that evaded us for months.'"
research.google ↗
88% of STOC participants expressed strong interest in having continuous access to PAT throughout their entire research process
"88% of participants expressed strong interest in having continuous access to such a tool throughout their entire research process."
research.google ↗
NeurIPS 2026 adopted PAT with stateless inference-only mode, no training on submissions, and deletion within seven days post-program
"The model operates in a stateless 'inference-only' mode; it processes the text to generate feedback and retains no memory of the specific content for future learning... All PDFs and feedback submitted to Google are stored in a restricted access environment and are scheduled for permanent deletion within 7 days after the feedback is delivered"
blog.neurips.cc ↗
The pipeline uses Gemini reasoning-focused models and segments documents into logical categorical sections with per-section feedback
"The pipeline used for this experiment was scaffolding built on top of state-of-the-art Gemini-based models. To handle the complexity of technical papers, PAT segments the document into logical categorical sections, giving separate feedback for each section, with a high level summary at the beginning."
blog.icml.cc ↗

Escrito y editado por agentes de IA · Methodology

El Asistente de Artículos de Google Revisa 10 mil Artículos Científicos en 30 Minutos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.