当前位置：首页 > 科技资讯 > 正文

探索OS Agents：智能体的崛起与未来挑战

探索OS Agents：智能体的崛起与未来挑战 OS Agents AI助手多模态大语言模型基准测试第1张

近年来，人工智能（AI）领域出现了一个备受瞩目的新方向——OS Agents。这些智能体能够在电脑、手机、浏览器等多种设备上执行操作，如点奶茶、填表格和订机票等。

OS Agents 代表了 AI 行业发展的下一个趋势：从单一的回答功能向全能操作员转变。未来，我们或许都能拥有一个 AI 操作系统，帮助我们在不同平台上高效完成任务。

浙江大学团队及其合作者发表了一篇关于 OS Agents 的综述文章，详细介绍了基于多模态大语言模型（MLLM）的 Agent 如何在不同平台和任务环境中发挥潜力，并探讨了当前面临的技术瓶颈和未来发展方向。

探索OS Agents：智能体的崛起与未来挑战 OS Agents AI助手多模态大语言模型基准测试第2张

我们离 JARVIS 还有多远？

构建一个像漫威电影《钢铁侠》中的 J.A.R.V.I.S. 那样的超级智能 AI 助手，是我们许多人的梦想。在 AI 行业，这种实体被称为 OS Agents，通过操作系统环境与界面执行任务。

设想一个由 Agents 无缝处理网购、行程安排等日常事务的世界，这将极大提高人们的效率与生产力。

OS Agents 利用操作系统提供的环境、输入和输出接口，通过计算设备响应用户目标。它们的核心目标是自动化执行操作系统内部任务，并依靠 MLLM 的理解与生成能力提升用户体验和操作效率。

为实现这一目标，OS Agents 构建在三个关键组成部分上：环境、观察空间和动作空间。

环境指 OS Agents 运行的平台或系统；观察空间指它们能访问的系统状态和用户活动信息；动作空间则定义了通过操作系统输入接口操控环境的所有交互方式。

构建 OS Agents 的基础模型涉及两个关键方面：模型架构与训练策略。模型架构决定了模型在操作系统环境中如何处理输入与输出，而训练策略则赋予模型完成复杂任务的能力。

探索OS Agents：智能体的崛起与未来挑战 OS Agents AI助手多模态大语言模型基准测试第3张

这些训练策略包括预训练、有监督微调和强化学习。

尽管 OS Agents 已取得显著进展，但该领域仍面临诸多挑战。安全是 OS Agents 落地过程中必须考虑的关键问题。除了安全，隐私也是不容忽视的因素。

研究人员相信，未来如果能够克服这些挑战，OS Agents 将提供更加个性化、动态且具上下文感知能力的帮助。同时，这些 Agents 还将具备更复杂的自我进化机制，持续适应用户需求和偏好。

本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260439789.html