当前位置：首页 > 科技资讯 > 正文

OpenCUA：开创计算机使用智能体新纪元

主机测评网
科技资讯
2026-04-22
566

近日，香港大学XLANG Lab与月之暗面等机构携手在arXiv发布了一项研究，介绍了一个全新的开源框架，旨在构建和扩展计算机使用智能体（CUA）。该框架包括：

一个用于捕捉人类使用计算机演示的注释工具
AgentNet：首个涵盖3个操作系统和200多个应用程序/网站的大规模数据集
一个将演示转化为具有长思维链推理的「状态-动作」对的工作流程

利用此框架，研究团队打造了一个旗舰模型OpenCUA-32B，在OSWorld-Verified上实现了34.8%的成功率，创造了新的开源SOTA，甚至在该基准测试中超越了GPT-4。

更值得一提的是，研究团队公开了所有相关代码、数据和模型！

OpenCUA：开创计算机使用智能体新纪元 OpenCUA CUA 智能体数据集第1张

论文标题：OpenCUA: Open Foundations for Computer-Use Agents

论文地址：https://arxiv.org/abs/2508.09123

项目页面：https://opencua.xlang.ai/（包含工具、模型、数据集）

值得一提的是，该研究团队由6位作者组成，其中项目负责人是香港大学计算机科学助理教授Tao Yu（余涛）。此外，月之暗面创始人和CEO杨植麟以及斯坦福大学计算机科学系助理教授杨笛一也位列作者名单。

接下来，我们将详细探讨这项研究。

OpenCUA框架

OpenCUA：开创计算机使用智能体新纪元 OpenCUA CUA 智能体数据集第2张展示了OpenCUA框架的概览。

具体而言，OpenCUA框架包含以下内容：AgentNet Tool（左上角），通过屏幕视频与操作流程捕捉跨操作系统的用户交互。右上角展示了原始演示被处理成包含推理与历史的「状态–动作」轨迹。右下角则呈现了AgentNet数据集与基准，涵盖多样化的任务，并提供含黄金标准动作的离线评估。最后，左下角展示了OpenCUA模型经过训练后，可在真实环境中执行计算机操作任务。