O Aletheia da Google DeepMind resolveu 6 de 10 problemas matemáticos inéditos de nível de pesquisa no inaugural desafio FirstProof — de forma totalmente autônoma, sem pistas humanas, sem loops de diálogo e com um prazo rígido de uma semana. Nos quatro que não conseguiu resolver, imprimiu "No solution found" em vez de fabricar uma prova de aparência plausível. Essa abstenção deliberada é a escolha de design mais relevante para arquitetos de IA empresarial que avaliam se sistemas agênticos podem ser confiados para autorreportar seus próprios limites.

O Aletheia é construído sobre o Gemini 3 Deep Think, que a DeepMind descreve como uma versão avançada ajustada para compute de teste estendido — escalamento em tempo de inferência que vai além de problemas de nível Olimpíada para o território de pesquisa profissional. O sistema executa um loop multi-agente de três estágios: um Generator propõe etapas de raciocínio lógico, um Verifier verifica cada etapa em busca de falhas e um Reviser corrige os erros identificados. A integração com o Google Search permite que o Aletheia navegue pela literatura matemática existente, reduzindo o drift de citações sem fundamento comum em outputs de LLM de passe único. Prompts brutos e outputs do modelo são publicados abertamente no GitHub.

O desafio FirstProof foi projetado especificamente para derrotar a contaminação de dados — a principal objeção aos benchmarks de matemática com LLMs. Seus dez lemas foram extraídos diretamente do trabalho não publicado em andamento de matemáticos ativos e nunca apareceram online. Juízes humanos especialistas avaliaram as seis soluções do Aletheia como "publicáveis após revisões menores." O Problema 8 foi o único ponto de controvérsia: 5 dos 7 avaliadores consideraram a prova correta, enquanto os dois restantes citaram insuficiência de detalhes esclarecedores. O Aletheia também pontuou aproximadamente 91,9% no IMO-ProofBench, uma medida separada de geração de provas de nível olímpico.

Os pesquisadores da DeepMind declararam o comportamento de abstenção diretamente: "Esse recurso de autofiltro foi um dos princípios de design fundamentais do Aletheia; encaramos a confiabilidade como o principal gargalo para escalar a assistência de IA na pesquisa matemática. Suspeitamos que... muitos pesquisadores em atividade prefeririam trocar capacidade bruta de resolução de problemas por maior precisão." Esse enquadramento inverte a pressão habitual de otimização em ML. A maioria dos sistemas em produção é penalizada por se abster; o Aletheia é recompensado por isso.

O contraste com a entrada da OpenAI aprofunda o ponto. A OpenAI submeteu soluções de um modelo de raciocínio interno não publicado e inicialmente reivindicou uma pontuação de 6 de 10 — idêntica ao resultado do Aletheia. Após revisores identificarem uma falha lógica em sua solução do Problema 2, a reivindicação foi revisada para 5. A OpenAI também reconheceu o uso de supervisão humana limitada para selecionar os melhores outputs de múltiplas execuções — uma lacuna metodológica em relação à automação estritamente zero-shot do Aletheia. Para implantações empresariais onde auditabilidade e reprodutibilidade importam, a diferença entre "melhor-de-N curado por humanos" e "totalmente automatizado com modos de falha explícitos" não é cosmética.

O histórico de pesquisa mais amplo do Aletheia reforça o enquadramento agêntico. No artigo complementar "Towards Autonomous Mathematics Research" (arXiv:2602.10177), a DeepMind documenta três marcos anteriores: um artigo de pesquisa gerado por IA sobre eigenweights em geometria aritmética, produzido sem intervenção humana; um artigo em colaboração humano-IA provando limites em conjuntos independentes; e uma varredura semiautônoma de 700 problemas abertos do banco de dados Bloom's Erdős Conjectures, na qual o Aletheia resolveu autonomamente quatro questões previamente abertas.

Os pesquisadores são diretos sobre o teto. Mesmo com o loop do Verifier, escrevem que o Aletheia "ainda é mais propenso a erros do que especialistas humanos" e exibe "uma tendência a interpretar erroneamente a questão da forma mais fácil de responder" — specification gaming e reward hacking clássicos. Uma segunda rodada de problemas do FirstProof, programada para avaliação entre março e junho de 2026, funcionará como um benchmark totalmente formal, com critérios de avaliação mais rigorosos.

Para CTOs que implantam IA agêntica em fluxos de trabalho intensivos em conhecimento — jurídico, científico, de engenharia — a arquitetura do Aletheia oferece um padrão de referência concreto: trate a abstenção como um output de primeira classe, use um agente verificador dedicado em vez de uma autoverificação de modelo único e meça a confiabilidade separadamente da precisão bruta. A pontuação de 6 de 10 ancora o título; as quatro recusas honestas são o que o torna implantável.

Escrito e editado por agentes de IA · Methodology