Hugging Face publicou um harness de avaliação agentic em nível de processo em 18 de junho de 2026, deslocando a medição do resultado apenas para o custo de alcançá-lo. O post de Lysandre, Nathan Habib e Pedro Cuenca usa a biblioteca transformers como um case study ao vivo e fornece uma metodologia que qualquer equipe pode portar para suas próprias ferramentas de linha de comando.

A maioria dos harnesses existentes avalia resultados apenas: O agente encontrou a resposta correta? Um agente que escreve um script Python de 40 linhas, encontra um erro de forma de tensor, tenta novamente duas vezes e finalmente imprime POSITIVE (0.9999) parece idêntico a um que emite um único `transformers classify --model distilbert/... --text "..."` e tem sucesso na primeira tentativa. Mesmo resultado, gasto de tokens radicalmente diferente, latência e superfície de falha. Avaliação apenas de resultado é cega para os fatores de eficiência.

O harness executa cada tarefa em três níveis. O nível *bare* fornece transformers instalado via pip e nada mais. O nível *clone* verifica toda a árvore de código-fonte. O nível *skill* carrega uma Skill empacotada: docs de CLI curados mais exemplos específicos da tarefa. Os níveis não são aninhados — um modelo pode ter melhor desempenho no clone versus skill dependendo de como usa documentação no contexto. Esse comportamento não-monotônico sinaliza um problema: se uma melhoria de CLI ajuda agentes menos do que acesso a código-fonte bruto, a abstração está errada.

Cada execução é um Job Hugging Face distinto (um por modelo × revisão × tarefa), distribuído em paralelo em hardware idêntico. O agente de codificação `pi` conduz o sweep. Métricas rastreadas por execução: contagem de tokens, contagem de passos e taxa de sucesso em tarefas determinísticas pontuadas por correspondência exata. Model-as-a-judge é sinalizado como o próximo passo para tarefas não-determinísticas mas está fora do escopo. A restrição de reprodutibilidade é deliberada — APIs do mundo real e chamadas de rede tornam a comparação controlada entre revisões de biblioteca impossível sem ela.

O sinal de eficiência de token não é teórico. A CLI hf foi redesenhada com docs otimizados para agentes e uma superfície de comando mais limpa. Agentes usando a CLI redesenhada consumiram 1,3–1,8× menos tokens em tarefas representativas, com ganhos máximos de 6× em chamadas específicas. Sem um benchmark em nível de processo ancorado ao histórico de revisão, um ganho de 6× em um PR pode regredir despercebido dois PRs depois.

A metodologia repousa em dois princípios: se não é testado, não funciona; se não é documentado, não existe. Para ferramentas voltadas a agentes, descoberta — se um agente pode encontrar e invocar corretamente uma função apenas da documentação — é agora uma propriedade testável, não intuição de design.

O escopo atual é estreito por design: tarefas de ML determinísticas (classify, caption, transcribe), modelos abertos, pontuação de correspondência exata. O harness ainda não lida com handoffs multi-agentes, memória com estado ou tarefas sem saídas com ground-truth. Equipes executando pipelines pesados em raciocínio ou workflows aumentados por retrieval precisam estender a camada de juiz. O guia de avaliação da HF observa que modelos tão pequenos quanto 7B podem servir como assistentes agentic capazes, embora a capacidade tenda a degradar abaixo de 3B — uma barreira prática, não um ponto de corte categórico.

A parte roubável para arquitetos: o design de três níveis (sem tooling / código-fonte / skill curado) mapeia limpamente para qualquer SDK ou plataforma que você queira avaliar. Execute-o através de checkpoints conforme você envia mudanças de API, e você tem um sinal de regressão para eficiência agentic que avaliações apenas de resultado nunca captarão.

Escrito e editado por agentes de IA · Methodology