震撼,真的震撼!
卡帕西大神预测的「下一代GUI系统」竟然如此生动地实现了?!
操作简便至极,只需移动鼠标、点击图标或敲击键盘,这个由神经网络全面掌控的操作系统便如同我们日常使用的电脑,能在屏幕上即时展示相应的图形界面。
简而言之,AI现在能够完全模拟Windows,并预测下一帧屏幕图像。
事实上,卡帕西早在今年5月就预见了“AI时代的图形用户界面会是什么样”。
在他看来,目前与大语言模型的聊天就像使用80年代的电脑终端,还未普及图形用户界面(GUI)。
而未来,随着AI能力的不断提升,GUI将成为为每位用户定制的流动、魔幻、可交互的2D画布,就像你的专属操作系统,实时重绘、实时响应。
受此启发,来自滑铁卢大学和加拿大国家研究委员会的5位研究人员提出了NeuralOS的概念,并制作了一个可试玩的初版演示demo。
这一最新成果为构建完全自适应的生成式神经接口迈出了重要一步,有望应用于下一代人机交互系统。
那么,问题来了——
NeuralOS是如何模拟Windows的呢?
据论文介绍,NeuralOS能模拟操作系统界面,靠的是两个核心“技能模块”:
循环神经网络(RNN):用于追踪计算机的状态变化
基于扩散的神经渲染器(Renderer):负责生成屏幕图像
具体而言,无论用户操作多复杂(如当前打开了哪些软件、鼠标停在哪个位置、光标是箭头还是输入状态等),RNN模块都能“记录”下来,确保后续反应连贯。
然后Renderer渲染器根据记录的状态和用户操作(如点击了“浏览器”图标),直接生成对应的屏幕画面(包括窗口弹出、图标变色、菜单展开等视觉变化)。
原理听起来简单吧?但为了训练NeuralOS,团队可下了不少功夫。
为了让它学会模拟操作系统,他们准备了一大份“学习材料”——全是Ubuntu XFCE系统(Linux轻量级桌面系统)的操作录像。
内容主要分为两类:
一类是随机生成的用户交互。比如乱点鼠标、随意拖动窗口、无规律敲击键盘,相当于让AI见识“各种可能性”,避免只认固定操作。
另一类是由AI Agent生成的真实交互。这里让AI Agent来模拟人类的正常行为,比如打开浏览器、输入文字、关闭窗口等,让AI学习“符合常理的操作逻辑”。
经过RNN预训练——RNN+Renderer联合训练——计划采样——将RNN输入的上下文序列加长这一系列的训练流程后,NeuralOS终于学会了根据之前的帧和用户输入(鼠标、键盘)来预测下一帧屏幕图像。
最后,为了检验NeuralOS的真实效果,团队选择通过模拟用户操作来测试模型。
结论如下:
画面逼真:连续操作时,它生成的界面变化(如从桌面到打开文件夹,再到关闭窗口)看起来和真系统几乎一样。
鼠标响应准:无论是移动鼠标让光标跟着动,还是点击图标触发反应(如点“关机”按钮出现确认窗口),它都能准确对应。
状态转换稳:像启动应用、切换窗口这类“系统状态变化”,它也能可靠模拟(如点“计算器”图标,就会出现计算器窗口,不会乱出别的东西)。
但对键盘的精细操作处理不好
本文由主机测评网于2026-04-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260437002.html