当前位置:首页 > 科技资讯 > 正文

探索OS Agents:智能体的崛起与未来挑战

探索OS Agents:智能体的崛起与未来挑战 OS Agents  AI助手 多模态大语言模型 基准测试 第1张

近年来,人工智能(AI)领域出现了一个备受瞩目的新方向——OS Agents。这些智能体能够在电脑、手机、浏览器等多种设备上执行操作,如点奶茶、填表格和订机票等。

OS Agents 代表了 AI 行业发展的下一个趋势:从单一的回答功能向全能操作员转变。未来,我们或许都能拥有一个 AI 操作系统,帮助我们在不同平台上高效完成任务。

浙江大学团队及其合作者发表了一篇关于 OS Agents 的综述文章,详细介绍了基于多模态大语言模型(MLLM)的 Agent 如何在不同平台和任务环境中发挥潜力,并探讨了当前面临的技术瓶颈和未来发展方向。

探索OS Agents:智能体的崛起与未来挑战 OS Agents  AI助手 多模态大语言模型 基准测试 第2张

论文链接:https://arxiv.org/abs/2508.04482

我们离 JARVIS 还有多远?

构建一个像漫威电影《钢铁侠》中的 J.A.R.V.I.S. 那样的超级智能 AI 助手,是我们许多人的梦想。在 AI 行业,这种实体被称为 OS Agents,通过操作系统环境与界面执行任务。

设想一个由 Agents 无缝处理网购、行程安排等日常事务的世界,这将极大提高人们的效率与生产力。

OS Agents 是什么?

OS Agents 利用操作系统提供的环境、输入和输出接口,通过计算设备响应用户目标。它们的核心目标是自动化执行操作系统内部任务,并依靠 MLLM 的理解与生成能力提升用户体验和操作效率。

为实现这一目标,OS Agents 构建在三个关键组成部分上:环境、观察空间和动作空间。

环境指 OS Agents 运行的平台或系统;观察空间指它们能访问的系统状态和用户活动信息;动作空间则定义了通过操作系统输入接口操控环境的所有交互方式。

构建“能用”的 OS Agents

构建 OS Agents 的基础模型涉及两个关键方面:模型架构与训练策略。模型架构决定了模型在操作系统环境中如何处理输入与输出,而训练策略则赋予模型完成复杂任务的能力。

探索OS Agents:智能体的崛起与未来挑战 OS Agents  AI助手 多模态大语言模型 基准测试 第3张

这些训练策略包括预训练、有监督微调和强化学习。

挑战与未来

尽管 OS Agents 已取得显著进展,但该领域仍面临诸多挑战。安全是 OS Agents 落地过程中必须考虑的关键问题。除了安全,隐私也是不容忽视的因素。

研究人员相信,未来如果能够克服这些挑战,OS Agents 将提供更加个性化、动态且具上下文感知能力的帮助。同时,这些 Agents 还将具备更复杂的自我进化机制,持续适应用户需求和偏好。