OpenComputer Reemplaza Jueces de LLM por Tareas de Desktop Verificables

Investigadores del Yale NLP Lab, Universidad de Pensilvania y UNC Chapel Hill lanzaron OpenComputer, un framework fundamentado en verificadores para construir ambientes de evaluación de desktop verificables por máquina para agentes de computer-use. El benchmark incluye 1.000 tareas finalizadas abarcando 33 aplicaciones — navegadores, suites de oficina, software creativo, ambientes de desarrollo, gestores de archivos y herramientas de comunicación — y es de código abierto en github.com/echo0715/OpenComputer.

La evaluación LLM-as-a-judge es inadecuada para agentes de desktop. Los jueces LLM son sensibles a la redacción de prompts y observaciones incompletas, difíciles de auditar entre ejecuciones, y recompensan resultados que se ven plausibles en capturas de pantalla mientras pierden errores enterrados en el estado de la aplicación. OpenComputer reemplaza la puntuación basada en jueces por cuatro componentes fuertemente acoplados: verificadores de estado específicos de la aplicación que exponen puntos finales de inspección estructurada sobre aplicaciones reales, una capa de verificación auto-evolutiva que itera la confiabilidad del verificador usando retroalimentación fundamentada en la ejecución, un pipeline de generación de tareas que sintetiza instancias de tareas realistas y verificables por máquina, y un harness de evaluación que registra trayectorias completas del agente y calcula recompensas de crédito parcial auditables.

El bucle de verificador auto-evolutivo opera en calibración. La Fase 2 del pipeline ejecuta tareas de calibración, deja que un agente fuerte las ejecute, luego enfrenta un evaluador LLM contra el verificador programático. Donde los dos discrepan, el sistema atribuye la discrepancia y escribe la atribución de vuelta en la memoria del verificador — parcheando el punto final, el verificador o la documentación. La confiabilidad del verificador mejora sin etiquetado manual de nueva verdad fundamental.

Los verificadores codificados mostraron un alineamiento más cercano con el arbitraje humano que la puntuación LLM-as-judge, especialmente en tareas donde el éxito depende del estado de aplicación refinado en lugar de la salida visible de la UI. Los modelos frontera tuvieron dificultades con la conclusión de tareas end-to-end a pesar de acumular crédito parcial — consistente con benchmarks de agentes en general, pero la estructura de recompensa de crédito parcial de OpenComputer hace que la brecha sea más visible que la puntuación binaria pass/fail. Los modelos de código abierto exhibieron caídas agudas de puntuación relativas a sus números OSWorld-Verified, sugiriendo que la transferencia del corpus de 369 tareas de OSWorld al rango de 1.000 tareas y 33 apps de OpenComputer es no trivial. El paper no divulga tasas de aprobación específicas por modelo o por categoría de aplicación.

OpenComputer es un framework de investigación y harness de evaluación, no un producto de inferencia para envío. No se divulgaron cifras de latencia, costo por tarea o GPU-horas para evaluar. Los equipos que adopten este framework deben presupuestar para mantener el estado de aplicación en vivo en 33 apps de desktop — creando o editando archivos, configurando carpetas, completando hojas de cálculo, poblando estado de correo electrónico o calendario, y asegurando reproducibilidad entre snapshots de VM. Esto refleja el punto de dolor que los equipos de OSWorld han señalado repetidamente. El pipeline de generación de tareas de OpenComputer tiene como objetivo automatizar la síntesis de tareas, pero la carga de mantenimiento del verificador se desplaza en lugar de desaparecer.

Las aplicaciones reciben actualizaciones; un punto final de inspección de estado que funcionaba en LibreOffice 24.x puede fallar silenciosamente en 25.x. La capa auto-evolutiva aborda esto en principio, pero se requiere revalidación continua a medida que cambian las versiones de la aplicación. La estructura de recompensa de crédito parcial importará para los pipelines de entrenamiento RL. Si los equipos pretenden usar OpenComputer como señal de entrenamiento en lugar de solo un harness de eval, las opciones de formación de recompensas igualan la precisión del verificador en importancia.

Si implementa un agente de computer-use y confía en jueces LLM para eval, adopte el patrón de crédito parcial fundamentado en verificadores de OpenComputer. Construya primero puntos finales de inspección de estado, ejecute el bucle de calibración auto-evolutivo antes de implementar tareas a escala, y trate la infraestructura de eval como código de producción bajo control de versiones.

Sources

OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications
"OpenComputer covers 33 desktop applications and 1,000 finalized tasks spanning browsers, office tools, creative software, development environments, file managers, and communication applications."
arxiv.org ↗
OpenComputer integrates four components: app-specific state verifiers, a self-evolving verification layer, a task-generation pipeline, and an evaluation harness with partial-credit rewards
"OpenComputer integrates four components: (1) app-specific state verifiers that expose structured inspection endpoints over real applications, (2) a self-evolving verification layer that improves verifier reliability using execution-grounded feedback, (3) a task-generation pipeline that synthesizes realistic and machine-checkable desktop tasks, and (4) an evaluation harness that records full trajectories and computes auditable partial-credit rewards."
arxiv.org ↗
LLM judges can reward outcomes that appear plausible from screenshots while missing errors in the underlying software state
"an LLM judge may reward outcomes that appear plausible from screenshots while missing errors in the underlying software state"
arxiv.org ↗
Hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state
"Experiments show that OpenComputer's hard-coded verifiers align more closely with human adjudication than LLM-as-judge evaluation, especially when success depends on fine-grained application state."
arxiv.org ↗
Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores
"Frontier agents struggle with end-to-end completion despite partial progress, and open-source models exhibit sharp drops from their OSWorld-Verified scores, exposing a persistent gap in robust computer automation."
arxiv.org ↗
The self-evolving verification loop runs calibration tasks, then pits an LLM evaluator against the programmatic verifier, attributing disagreements back to verifier memory
"Phase 2 closes a self-evolving loop: calibration tasks drive a strong agent run, an LLM evaluator and the programmatic verifier produce verdicts that disagreement analysis attributes, and verifier memory + checker/endpoint/doc fixes refine the verifier with execution-grounded feedback."
arxiv.org ↗
Code is available at github.com/echo0715/OpenComputer
"https://github.com/echo0715/OpenComputer"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

OpenComputer Reemplaza Jueces de LLM por Tareas de Desktop Verificables

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.