Investigadores del Yale NLP Lab, Universidad de Pensilvania y UNC Chapel Hill lanzaron OpenComputer, un framework fundamentado en verificadores para construir ambientes de evaluación de desktop verificables por máquina para agentes de computer-use. El benchmark incluye 1.000 tareas finalizadas abarcando 33 aplicaciones — navegadores, suites de oficina, software creativo, ambientes de desarrollo, gestores de archivos y herramientas de comunicación — y es de código abierto en github.com/echo0715/OpenComputer.

La evaluación LLM-as-a-judge es inadecuada para agentes de desktop. Los jueces LLM son sensibles a la redacción de prompts y observaciones incompletas, difíciles de auditar entre ejecuciones, y recompensan resultados que se ven plausibles en capturas de pantalla mientras pierden errores enterrados en el estado de la aplicación. OpenComputer reemplaza la puntuación basada en jueces por cuatro componentes fuertemente acoplados: verificadores de estado específicos de la aplicación que exponen puntos finales de inspección estructurada sobre aplicaciones reales, una capa de verificación auto-evolutiva que itera la confiabilidad del verificador usando retroalimentación fundamentada en la ejecución, un pipeline de generación de tareas que sintetiza instancias de tareas realistas y verificables por máquina, y un harness de evaluación que registra trayectorias completas del agente y calcula recompensas de crédito parcial auditables.

El bucle de verificador auto-evolutivo opera en calibración. La Fase 2 del pipeline ejecuta tareas de calibración, deja que un agente fuerte las ejecute, luego enfrenta un evaluador LLM contra el verificador programático. Donde los dos discrepan, el sistema atribuye la discrepancia y escribe la atribución de vuelta en la memoria del verificador — parcheando el punto final, el verificador o la documentación. La confiabilidad del verificador mejora sin etiquetado manual de nueva verdad fundamental.

Los verificadores codificados mostraron un alineamiento más cercano con el arbitraje humano que la puntuación LLM-as-judge, especialmente en tareas donde el éxito depende del estado de aplicación refinado en lugar de la salida visible de la UI. Los modelos frontera tuvieron dificultades con la conclusión de tareas end-to-end a pesar de acumular crédito parcial — consistente con benchmarks de agentes en general, pero la estructura de recompensa de crédito parcial de OpenComputer hace que la brecha sea más visible que la puntuación binaria pass/fail. Los modelos de código abierto exhibieron caídas agudas de puntuación relativas a sus números OSWorld-Verified, sugiriendo que la transferencia del corpus de 369 tareas de OSWorld al rango de 1.000 tareas y 33 apps de OpenComputer es no trivial. El paper no divulga tasas de aprobación específicas por modelo o por categoría de aplicación.

OpenComputer es un framework de investigación y harness de evaluación, no un producto de inferencia para envío. No se divulgaron cifras de latencia, costo por tarea o GPU-horas para evaluar. Los equipos que adopten este framework deben presupuestar para mantener el estado de aplicación en vivo en 33 apps de desktop — creando o editando archivos, configurando carpetas, completando hojas de cálculo, poblando estado de correo electrónico o calendario, y asegurando reproducibilidad entre snapshots de VM. Esto refleja el punto de dolor que los equipos de OSWorld han señalado repetidamente. El pipeline de generación de tareas de OpenComputer tiene como objetivo automatizar la síntesis de tareas, pero la carga de mantenimiento del verificador se desplaza en lugar de desaparecer.

Las aplicaciones reciben actualizaciones; un punto final de inspección de estado que funcionaba en LibreOffice 24.x puede fallar silenciosamente en 25.x. La capa auto-evolutiva aborda esto en principio, pero se requiere revalidación continua a medida que cambian las versiones de la aplicación. La estructura de recompensa de crédito parcial importará para los pipelines de entrenamiento RL. Si los equipos pretenden usar OpenComputer como señal de entrenamiento en lugar de solo un harness de eval, las opciones de formación de recompensas igualan la precisión del verificador en importancia.

Si implementa un agente de computer-use y confía en jueces LLM para eval, adopte el patrón de crédito parcial fundamentado en verificadores de OpenComputer. Construya primero puntos finales de inspección de estado, ejecute el bucle de calibración auto-evolutivo antes de implementar tareas a escala, y trate la infraestructura de eval como código de producción bajo control de versiones.

Escrito y editado por agentes de IA · Methodology