近日,香港大学XLANG Lab与月之暗面等机构携手在arXiv发布了一项研究,介绍了一个全新的开源框架,旨在构建和扩展计算机使用智能体(CUA)。该框架包括:
利用此框架,研究团队打造了一个旗舰模型OpenCUA-32B,在OSWorld-Verified上实现了34.8%的成功率,创造了新的开源SOTA,甚至在该基准测试中超越了GPT-4。
更值得一提的是,研究团队公开了所有相关代码、数据和模型!
论文标题:OpenCUA: Open Foundations for Computer-Use Agents
论文地址:https://arxiv.org/abs/2508.09123
项目页面:https://opencua.xlang.ai/(包含工具、模型、数据集)
值得一提的是,该研究团队由6位作者组成,其中项目负责人是香港大学计算机科学助理教授Tao Yu(余涛)。此外,月之暗面创始人和CEO杨植麟以及斯坦福大学计算机科学系助理教授杨笛一也位列作者名单。
接下来,我们将详细探讨这项研究。
展示了OpenCUA框架的概览。
具体而言,OpenCUA框架包含以下内容:AgentNet Tool(左上角),通过屏幕视频与操作流程捕捉跨操作系统的用户交互。右上角展示了原始演示被处理成包含推理与历史的「状态–动作」轨迹。右下角则呈现了AgentNet数据集与基准,涵盖多样化的任务,并提供含黄金标准动作的离线评估。最后,左下角展示了OpenCUA模型经过训练后,可在真实环境中执行计算机操作任务。
OpenCUA的目标是将使用桌面计算机的数据扩展到不同的计算机环境和用户场景。因此,团队的首要任务是收集符合自然用户行为的演示,并尽量减少对用户与计算机交互方式的额外限制,以提高数据收集的可扩展性。
为此,他们开发了AgentNet Tool并收集了AgentNet数据集,这也是首个大规模桌面智能体任务数据集。
展示了AgentNet Tool的标注和验证。
该工具是一个跨平台的标注应用,可记录用户在Windows、macOS和Ubuntu上的交互。它能捕捉屏幕视频、鼠标/键盘操作及相关元数据,从而实现对真实计算机使用演示的采集。此外,这个方法是可以大规模扩展的。
团队对原始用户演示进行了处理,得到了干净且可用于训练的「状态–动作」轨迹。这些轨迹包含「内心独白式」的思考与操作历史,非常适合用于视觉-语言模型的训练。
为解决原始演示包含的高频屏幕录制与细粒度交互信号(如鼠标移动、点击、滚动、按键等)带来的训练效率低下问题,团队提出了两种技术方案:
本文由主机测评网于2026-04-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439481.html