OpenComputer Substitui Juízes de LLM por Tarefas de Desktop Verificáveis

Pesquisadores do Yale NLP Lab, Universidade da Pensilvânia e UNC Chapel Hill liberaram OpenComputer, um framework grounded em verificadores para construir ambientes de avaliação de desktop verificáveis por máquina para agentes de computer-use. O benchmark vem com 1.000 tarefas finalizadas abrangendo 33 aplicações — navegadores, suítes de escritório, software criativo, ambientes de desenvolvimento, gerenciadores de arquivos e ferramentas de comunicação — e é de código aberto em github.com/echo0715/OpenComputer.

Avaliação LLM-as-a-judge é inadequada para agentes de desktop. Juízes de LLM são sensíveis à formulação de prompts e observações incompletas, difíceis de auditar entre execuções, e recompensam resultados que parecem plausíveis em screenshots enquanto perdem erros enterrados no estado da aplicação. OpenComputer substitui avaliação baseada em juiz por quatro componentes fortemente acoplados: verificadores de estado específicos da aplicação que expõem endpoints de inspeção estruturada sobre aplicações reais, uma camada de verificação auto-evolutiva que itera confiabilidade do verificador usando feedback grounded em execução, um pipeline de geração de tarefas que sintetiza instâncias de tarefas realistas e verificáveis por máquina, e um harness de avaliação que registra trajetórias completas do agente e computa recompensas de crédito parcial auditáveis.

O loop de verificador auto-evolutivo opera em calibração. A Fase 2 do pipeline executa tarefas de calibração, deixa um agente forte executá-las, então coloca um avaliador LLM contra o verificador programático. Onde os dois discordam, o sistema atribui a discrepância e escreve a atribuição de volta na memória do verificador — corrigindo o endpoint, o verificador ou a documentação. Confiabilidade do verificador melhora sem rotulação manual de nova verdade fundamental.

Verificadores hard-coded mostraram alinhamento mais próximo com julgamento humano do que avaliação LLM-as-judge, especialmente em tarefas onde sucesso depende de estado de aplicação refinado em vez de saída visível de UI. Modelos frontier lutaram com conclusão de tarefas end-to-end apesar de acumular crédito parcial — consistente com benchmarks de agentes em geral, mas a estrutura de recompensa de crédito parcial do OpenComputer torna a lacuna mais visível do que avaliação binary pass/fail. Modelos open-source exibiram quedas agudas de score relativas aos seus números OSWorld-Verified, sugerindo que a transferência do corpus de 369 tarefas do OSWorld para o spread de 1.000 tarefas e 33 apps do OpenComputer é não-trivial. O paper não divulga taxas de aprovação específicas por modelo ou por categoria de aplicação.

OpenComputer é um framework de pesquisa e harness de avaliação, não um produto de inferência para shipping. Nenhuma figura de latência, custo-por-tarefa ou GPU-horas-para-avaliação foi divulgada. Times adotando este framework devem orçar para manter estado de aplicação live em 33 apps de desktop — criando ou editando arquivos, configurando pastas, preenchendo planilhas, seeding estado de email ou calendário, e garantindo reproduzibilidade entre snapshots de VM. Isto espelha o pain point que times do OSWorld sinalizaram repetidamente. O pipeline de geração de tarefas do OpenComputer visa automatizar síntese de tarefas, mas o ônus de manutenção do verificador se desloca em vez de desaparecer.

Aplicações recebem atualizações; um endpoint de inspeção de estado que funcionava em LibreOffice 24.x pode falhar silenciosamente em 25.x. A camada auto-evolutiva endereça isto em princípio, mas re-validação contínua é requerida conforme versões de aplicação mudam. A estrutura de recompensa de crédito parcial importará para pipelines de RL training. Se times intencionam usar OpenComputer como sinal de training em vez de apenas um harness de eval, escolhas de reward shaping igualam acurácia do verificador em importância.

Se você faz shipping de um agente de computer-use e depende de juízes de LLM para eval, levante o padrão de crédito parcial grounded em verificadores do OpenComputer. Construa endpoints de inspeção de estado primeiro, execute o loop de calibração auto-evolutivo antes de fazer deploy de tarefas em escala, e trate infraestrutura de eval como código de produção sob version control.

Sources

OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications
"OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications."
arxiv.org ↗
OpenComputer integrates four components: app-specific state verifiers, a self-evolving verification layer, a task-generation pipeline, and an evaluation harness with partial-credit rewards
"OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards."
arxiv.org ↗
LLM judges can reward outcomes that appear plausible from screenshots while missing errors in the underlying software state
"an LLM judge may reward outcomes that appear plausible from screenshots while missing errors in the underlying software state"
arxiv.org ↗
Hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state
"Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state."
arxiv.org ↗
Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores
"Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation."
arxiv.org ↗
The self-evolving verification loop runs calibration tasks, then pits an LLM evaluator against the programmatic verifier, attributing disagreements back to verifier memory
"Phase 2 closes a self-evolving loop: calibration tasks drive a strong agent run, an LLM evaluator and the programmatic verifier produce verdicts that disagreement analysis attributes, and verifier memory + checker/endpoint/doc fixes refine the verifier with execution-grounded feedback."
arxiv.org ↗
Code is available at github.com/echo0715/OpenComputer
"https://github.com/echo0715/OpenComputer"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

OpenComputer Substitui Juízes de LLM por Tarefas de Desktop Verificáveis

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.