当前位置:首页 > 科技资讯 > 正文

吴翼:强化学习引领AI未来,创新无惧挑战

文|富充

编辑|苏建勋

无论是在学校的科研探索,还是与蚂蚁集团等大公司的合作中,吴翼始终希望他的团队保持创业心态:勇于试错,快速迭代。

作为清华大学交叉信息学院的助理教授及AReaL项目负责人,吴翼聚焦于强化学习算法和AI应用创新。其清华团队与蚂蚁研究院于2025年5月共同开源了首个异步强化学习训练框架AReaL-lite,旨在显著提升AI训练效率,减少GPU资源浪费。

作为90后的技术领军人物,吴翼鼓励团队“在试错中成长”。他最讨厌的借口是“没有资源,所以无法开展工作”,因为从0到1的本质正是创造资源。

今年9月的外滩大会上,吴翼阐述的产品观也体现了这一点:产品一经完成就迅速发布,即使市场反馈不佳,也要明确问题所在并进行相应改进,避免等待所谓的“完美开局”。

这份对创新的执着,源于吴翼此前的创业经历。2023年,他的团队创立了基于强化学习的AI Agent公司边塞科技,这也是AReaL的前身。

因在AI领域的相似背景与研究经历,吴翼与星动纪元创始人陈建宇、千寻智能联创高阳、星海图首席科学家许华哲并称为“伯克利四子”。

鲜为人知的是,吴翼是四人中最早决定回国的,正是他的建议与推动,促成了其他三人的归国。

吴翼热衷于开创性的事物。在清华,他常告诫学生“创新就是要到无人区去”。他坚信,AI创新不能依赖多点布局“赌一把”,而应源于深度的思考与长期的坚持。

他预测AI的未来:智能体将能理解人类的模糊意图,完成长程任务,并最终从数字世界走向物理世界,成为具身智能的“大脑”。

今年WAIC上的演讲中,他举例描述,未来只需对机器人说“整理一下房间”,它便能花数小时妥善完成。

对于这一目标,吴翼认为自己所从事的强化学习训练方法将是大幅提升AI智能水平的关键。

吴翼:强化学习引领AI未来,创新无惧挑战 强化学习 AI创新 具身智能体 AReaL 第1张

△在杭州参加机器人学术会IROS后,吴翼在小红书上分享了一张手捧奶茶的照片,笑容满面。

在专业领域态度严谨的吴翼,在社交媒体上却展现出另一番风貌。

这位自称的“高能量I人博导”,经常在小红书上分享科研进展,也乐于回复有关AI求职与发展的提问。

因热爱奶茶,吴翼不仅会认真评选Top5奶茶口味,还会专门拍照打卡心仪的奶茶品牌。

吴翼:强化学习引领AI未来,创新无惧挑战 强化学习 AI创新 具身智能体 AReaL 第2张

△吴翼喜欢奶茶,在小红书上发布的招聘信息配图也是一杯奶茶。

近日,吴翼接受了《智能涌现》的专访,分享了许多关于AI前景、创业的思考。以下是经过作者整理的内容:

AI的未来是聪明的智能体

智能涌现:目前AI尚未大规模普及应用,你认为AI产品的未来机遇在哪里?它将如何服务大众生活?

吴翼:让AI实现长程任务是一个不可逆的趋势。此外,人们对AI表达的命令将越来越简单、模糊。

虽然难以描述最终的产品形态,但AI产品最终将实现从用户主动驱动AI到AI提前猜测用户需求的转变。

在移动互联网时代,搜索引擎让人们主动寻找信息。后来知乎、字节等产品通过算法推送用户想要的内容。因此,人们将逐渐忘记主动搜索的对话框。聪明的AI将越来越多地服务于“懒人”的需求。

智能涌现:你在WAIC等活动上提到,当智能体(Agent)拥有身体后变成具身智能体(Embodied Agent),可与物理世界交互。具身智能体能做什么样的工作?

吴翼:聪明的具身智能体仅凭模糊指令就能准确推测用户意图并高质量完成任务。例如,用户说找不到充电宝时,机器人会自行推理、行动并依据使用习惯帮你寻找。

智能涌现:具身智能体能否多机协作?它们如何配合?

吴翼:具身智能体可协同完成复杂任务。例如机器人足球队中,机器人会根据训练情况组成阵型。

智能涌现:从数字世界到物理世界的具身智能体如何过渡?

吴翼:需要多模态数据并将训练环境从电脑转移到现实世界。数字世界中工具执行成功率较高但物理世界中失误率高。因此具身智能的发展将更复杂且更慢。