当前位置:首页 > 科技资讯 > 正文

NeuralOS:AI驱动的未来GUI系统

震撼,真的震撼!

卡帕西大神预测的「下一代GUI系统」竟然如此生动地实现了?!

操作简便至极,只需移动鼠标、点击图标或敲击键盘,这个由神经网络全面掌控的操作系统便如同我们日常使用的电脑,能在屏幕上即时展示相应的图形界面。

NeuralOS:AI驱动的未来GUI系统 NeuralOS  GUI系统 AI驱动 操作系统 第1张

简而言之,AI现在能够完全模拟Windows,并预测下一帧屏幕图像

NeuralOS:AI驱动的未来GUI系统 NeuralOS  GUI系统 AI驱动 操作系统 第2张

事实上,卡帕西早在今年5月就预见了“AI时代的图形用户界面会是什么样”。

在他看来,目前与大语言模型的聊天就像使用80年代的电脑终端,还未普及图形用户界面(GUI)。

而未来,随着AI能力的不断提升,GUI将成为为每位用户定制的流动、魔幻、可交互的2D画布,就像你的专属操作系统,实时重绘、实时响应

NeuralOS:AI驱动的未来GUI系统 NeuralOS  GUI系统 AI驱动 操作系统 第3张

受此启发,来自滑铁卢大学和加拿大国家研究委员会的5位研究人员提出了NeuralOS的概念,并制作了一个可试玩的初版演示demo。

这一最新成果为构建完全自适应的生成式神经接口迈出了重要一步,有望应用于下一代人机交互系统。

那么,问题来了——

NeuralOS是如何模拟Windows的呢?

关键法宝:RNN+渲染器

据论文介绍,NeuralOS能模拟操作系统界面,靠的是两个核心“技能模块”:

循环神经网络(RNN):用于追踪计算机的状态变化

基于扩散的神经渲染器(Renderer):负责生成屏幕图像

NeuralOS:AI驱动的未来GUI系统 NeuralOS  GUI系统 AI驱动 操作系统 第4张

具体而言,无论用户操作多复杂(如当前打开了哪些软件、鼠标停在哪个位置、光标是箭头还是输入状态等),RNN模块都能“记录”下来,确保后续反应连贯。

然后Renderer渲染器根据记录的状态和用户操作(如点击了“浏览器”图标),直接生成对应的屏幕画面(包括窗口弹出、图标变色、菜单展开等视觉变化)。

原理听起来简单吧?但为了训练NeuralOS,团队可下了不少功夫。

为了让它学会模拟操作系统,他们准备了一大份“学习材料”——全是Ubuntu XFCE系统(Linux轻量级桌面系统)的操作录像。

内容主要分为两类:

一类是随机生成的用户交互。比如乱点鼠标、随意拖动窗口、无规律敲击键盘,相当于让AI见识“各种可能性”,避免只认固定操作。

另一类是由AI Agent生成的真实交互。这里让AI Agent来模拟人类的正常行为,比如打开浏览器、输入文字、关闭窗口等,让AI学习“符合常理的操作逻辑”。

经过RNN预训练——RNN+Renderer联合训练——计划采样——将RNN输入的上下文序列加长这一系列的训练流程后,NeuralOS终于学会了根据之前的帧和用户输入(鼠标、键盘)来预测下一帧屏幕图像。

NeuralOS:AI驱动的未来GUI系统 NeuralOS  GUI系统 AI驱动 操作系统 第5张

最后,为了检验NeuralOS的真实效果,团队选择通过模拟用户操作来测试模型。

结论如下:

画面逼真:连续操作时,它生成的界面变化(如从桌面到打开文件夹,再到关闭窗口)看起来和真系统几乎一样。

鼠标响应准:无论是移动鼠标让光标跟着动,还是点击图标触发反应(如点“关机”按钮出现确认窗口),它都能准确对应。

状态转换稳:像启动应用、切换窗口这类“系统状态变化”,它也能可靠模拟(如点“计算器”图标,就会出现计算器窗口,不会乱出别的东西)。

但对键盘的精细操作处理不好

NeuralOS:AI驱动的未来GUI系统 NeuralOS  GUI系统 AI驱动 操作系统 第6张