当前位置:首页 > 科技资讯 > 正文

大模型Agent操作GUI的瓶颈与声明式接口GOI的革新

大模型Agent致力于自动化计算机操作,愿景宏大,但实际应用中却遭遇重重阻碍。

当前的大型语言模型智能体普遍面临两大核心难题:

成功率低:任务稍显复杂,Agent便容易出错,经常停滞在某个环节无法推进。

效率差:完成简单任务时,Agent需与系统进行多轮交互,过程冗长,令人焦虑。

问题根源何在?是否因为现有大模型智能不足?

中国科学院软件研究所团队的最新研究揭示了一个意外结论:关键瓶颈在于我们使用了40多年、极为熟悉的图形用户界面(GUI)

大模型Agent操作GUI的瓶颈与声明式接口GOI的革新 LLM智能体  图形用户界面 声明式接口 策略机制分离 第1张

从“命令式”到“声明式”的GUI转型

是的,正是自上世纪80年代兴起、彻底变革人机交互的GUI。它始终为人类设计,其理念与LLM的能力模型存在根本冲突。

研究团队指出GUI的核心缺陷:使用GUI时,应用功能无法直接调用,必须依赖导航交互

例如,功能控件隐藏于多层菜单、选项卡和对话框之后,访问需通过点击菜单、下拉框等导航操作才能显示。此外,许多控件(如滚动条、文本选择)的使用需反复调整并观察反馈,形成高频的“观察-操作”循环。

研究团队深刻揭示,GUI的命令式设计基于对人类用户的四个关键预设:

  • 视觉敏锐:人类擅长视觉识别,能快速定位按钮、图标和菜单。
  • 操作迅速:人类执行“观察-操作”循环轻松快捷。
  • 记忆有限:人类短期记忆容量小,因此界面需简洁,一次展示少量选项。
  • 倾向简捷:人类学习具体规则(如编程语法)认知成本高,但善于做“选择题”。

然而,这些预设与LLM能力严重不匹配:

LLM视觉能力弱,精准识别屏幕信息极为困难。

LLM响应较慢,单次推理耗时数秒或更长,等待时间过多。

LLM记忆强大,庞大上下文窗口可处理海量信息,不惧选项繁多。

LLM擅长结构化输出,生成精确指令是其强项。

结果,使用GUI时,LLM被迫同时充当“大脑”(策略)和“双手”(机制),既要进行语义任务规划,又要处理自身不擅长的繁琐底层操作,导致效率低下、认知过载且错误频发。

这种“命令式”交互如同打车时无法直告目的地,而需逐步指挥:“前方200米左转,直行50米,红绿灯右转……”。一旦指令出错或理解偏差,便全盘皆输。这正是LLM智能体当前困境的写照。

那么,能否让LLM“打车”时仅告知终点,而将路线规划与驾驶交由“经验丰富的司机”自动完成?

此研究的核心思想在于:将接口从“命令式”转为“声明式”。为此,团队基于GUI和操作系统的可访问性机制,提出全新抽象——声明式接口(GOI)

大模型Agent操作GUI的瓶颈与声明式接口GOI的革新 LLM智能体  图形用户界面 声明式接口 策略机制分离 第2张

GOI的核心是“策略-机制分离”:

策略(Policy):指定目标,即高层语义规划与功能编排。例如,“将所有幻灯片背景设为蓝色”需调用“蓝色”和“应用到全部”功能。此为LLM所长。

机制(Mechanism):指定执行,即底层导航与交互。例如,“点击‘设计’选项卡 -> 点击‘格式背景’ -> 点击‘纯色填充’ -> …”,或反复拖拽滚动条定位。此为LLM所短,但可自动化。

大模型Agent操作GUI的瓶颈与声明式接口GOI的革新 LLM智能体  图形用户界面 声明式接口 策略机制分离 第3张

GOI接管繁琐易错的“机制”部分,仅向LLM提供三个简洁的声明式原语:访问(access)、状态(state)和观察(observation)

如今,LLM无需如新手司机般发出微操作指令,而更像一位指挥官:通过GOI下达“访问‘蓝色’和‘应用到全部’”或“设置滚动条至80%”等高层指令,GOI便自动完成所有GUI导航与交互。

由此,LLM得以从GUI困境中解脱,专注其擅长的语义理解与任务规划。更关键的是,此过程无需修改应用源码,也不依赖应用对外提供API。

GOI如何实现策略与机制解耦?

GOI实施分为两阶段:离线建模与在线执行。

大模型Agent操作GUI的瓶颈与声明式接口GOI的革新 LLM智能体  图形用户界面 声明式接口 策略机制分离 第4张

第一步:离线“绘制地图”。离线阶段,GOI自动探索目标应用(如Word)的可访问控件,分析点击前后界面变化,构建完整的“UI导航图”

但挑战出现:复杂应用存在循环路径和“合并节点”(多路径可达同一控件),且不同路径触发同一控件的不同功能。

GOI通过去循环和基于成本的“选择性外化”算法,将复杂图转换为路径清晰、无歧义的“森林”结构,确保LLM访问任何功能均有唯一确定路径。

第二步:在线执行。在线任务执行时,LLM无需输出细粒度GUI导航序列。

取而代之的是GOI提供的压缩后、对LLM上下文友好的文本化“地图”。当LLM执行任务,仅需调用GOI的三大声明式原语接口:

访问(Access):通过visit接口直接声明目标功能控件ID,GOI自动计算路径并导航。

状态(State):通过set_scrollbar_pos()、select_lines()或select_controls()等接口,直接声明控件的最终状态,例如将滚动条设至80%位置,无需模拟拖拽。

观察(Observation):通过get_texts()等接口直接获取控件结构化信息,无需LLM进行像素级屏幕识别。

这些接口不依赖特定应用对外暴露API,而是基于GUI和操作系统的通用可访问性实现。

实验效果:从机制性错误转向策略性错误

为验证GOI能力,研究团队在包含Word、Excel和PowerPoint的OSWorld-W基准测试集中全面评估。

结果显示GOI带来显著性能提升。使用GPT-5推理模型时,成功率从44%跃升至74%

此外,超过61%的成功任务中,Agent仅一次LLM调用即完成,高效实现用户核心意图。

大模型Agent操作GUI的瓶颈与声明式接口GOI的革新 LLM智能体  图形用户界面 声明式接口 策略机制分离 第5张

更有趣的是失败分析

对于使用GUI的基线,53.3%的失败源于机制错误,如视觉定位识别错误、导航规划错误、控件交互错误等,如同因不识路而失败。

引入GOI后,81%的失败集中于策略层面,例如任务语义理解错误、图片内容分析错误或控件功能认知偏差。

这表明GOI成功将LLM从繁琐机制中解放,减少机制性失败。LLM更少犯“低级错误”,更聚焦于自身语义理解能力。好比LLM定错目的地,而非因不识路失败。

大模型Agent操作GUI的瓶颈与声明式接口GOI的革新 LLM智能体  图形用户界面 声明式接口 策略机制分离 第6张

团队表示,GOI的提出为设计更适合大模型的交互范式指明方向。

此工作不仅提升现有Agent性能提供思路,也引发思考:未来操作系统和应用是否应原生提供“LLM友好”的声明式接口,从而为更强大、通用的AI Agent铺路。

论文地址:https://arxiv.org/abs/2510.04607