当前位置:首页 > 科技资讯 > 正文

Transformer八子传奇:从AI革命到AGI的逐梦之旅

2017年,一篇标题看似简单却蕴含深远意义的论文《Attention Is All You Need》横空出世,震撼了AI研究界。

在当时,这一宣言犹如一颗重磅炸弹,提议彻底摒弃循环神经网络(RNN),仅依赖“注意力”机制处理语言。尽管起初遭到诸多质疑,但这篇仅15页的论文迅速点燃了变革的火焰。它所提出的Transformer架构,如旋风般重塑了人工智能的版图。从手机预测文本到惊艳图像的生成器DALL-E,再到改变世界的ChatGPT,其背后的核心思想均源自那篇论文。截至发文,其在Google Scholar上的引用次数已高达197159次。

Transformer八子传奇:从AI革命到AGI的逐梦之旅 Transformer AI革命 AGI 通用人工智能 第1张

论文的火爆,也让人们将目光聚焦于背后的作者团队——Google的八位科学家:Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Illia Polosukhin、Noam Shazeer、Llion Jones、Lukasz Kaiser和Aidan Gomez。他们因这项开创性工作而在AI界声名鹊起,被尊称为“Transformer八子”。

几年过去,随着Transformer的影响力日益扩大,AI领域也迎来了创业热潮。八子中的七位纷纷踏上创业之路,成为AI产业中的商业巨擘。而一人,选择了截然不同的道路。他放弃了商业帝国的机会,加入将AGI作为最终使命的OpenAI,深度参与并主导了GPT-4、GPT-5以及代号“o1”和“o3”的推理模型等核心研发工作。他,就是Lukasz Kaiser。

这个十月,这位传奇人物将再次站在舞台中央,分享他所预见的未来。

Transformer八子传奇:从AI革命到AGI的逐梦之旅 Transformer AI革命 AGI 通用人工智能 第2张

从巴黎到山景城

故事的起点并非硅谷的车库,而是欧洲古典学术殿堂的宁静之中。Lukasz Kaiser的学术生涯,从一开始就充满了对系统、结构与规则的极致探索。

他在波兰弗罗茨瓦夫大学获得计算机科学与数学双硕士学位后,前往德国亚琛工业大学攻读博士。在这里,他选择了异常艰深且抽象的领域:“自动结构上的逻辑与博弈”。这不仅是编程的艺术,更是关于计算世界最底层规则的哲学思考。他试图回答机器如何理解并操作那些由有限自动机定义的无限、复杂的结构。

2008年,他的博士论文完成。次年,他荣获了E.W. Beth dissertation prize,这是全球逻辑、语言和信息领域的最高学术荣誉之一。这一奖项不仅为他带来了3000欧元的奖金,更重要的是,它证明了他在最纯粹的理论科学领域已经达到了世界之巅。

这份荣誉不仅揭示了Kaiser思考问题的底层逻辑:他习惯于从第一性原理出发,构建宏大、自洽且优雅的系统来解决问题。这种思维范式与他日后参与构建同样具备宏大、自洽、优雅特性的Transformer架构形成了宿命般的共鸣。

博士毕业后,他走上了一条欧洲顶尖学者的“标准路径”:在亚琛继续博士后研究,随后于2010年受聘于巴黎狄德罗大学的LIAFA实验室,成为法国国家科学研究中心(CNRS)的一名终身研究员。

在巴黎,他拥有了欧洲学术界最令人羡慕的职位之一——稳定的职位、充足的经费以及完全的学术自由。然而,历史总在最关键时刻展现出惊人的相似性。Kaiser感受到了另一股更强大、无法抗拒的召唤。

RNN的围城与“注意力”的微光

2013年,Kaiser做出了一个震惊所有同事的决定:他辞去了法国的终身研究员职位,加入了谷歌大脑(Google Brain)。

这是一个充满不确定性的抉择。他放弃了清晰、荣耀且安稳的道路,投身于当时许多人看来还很“虚”的领域——深度学习。他后来在一次访谈中半开玩笑地解释这种转变:“成为一名理论计算机科学家要容易得多,因为你可以在20年里做同样的事情。但深度学习完全不同,每两年就要做一件完全不同的事情。”

他敏锐地感知到一场席卷全球的技术风暴正在大洋彼岸的加州酝酿。当他踏入Google位于山景城的办公室时,自然语言处理(NLP)领域正被一堵名为“循环神经网络”(RNN)的巨大城墙所围困。

当时的NLP领域,RNN及其变体LSTM是绝对的统治者。然而这种机制存在致命的缺陷:当句子很长时,模型往往会忘记开头的信息。整个AI界都在尝试加固这座围城,但没有人想过或许可以推倒它。

Kaiser和他的团队成为了最早的“攻城者”。他们清晰地指出了问题的根源:“神经网络是为图像识别而生的……但句子和图像完全不同。”他们引入了一种名为“注意力”(Attention)的机制。这个想法的本质是允许模型在翻译或生成文本时回头“看”一眼输入句子的所有部分,并动态决定哪些词最重要。

八子集结,一战封神

这个疯狂的想法聚集了Google Brain最顶尖的一批人:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Illia Polosukhin以及Lukasz Kaiser。

他们面对的是一个前所未有的挑战。为了快速迭代这个完全基于注意力的新模型,他们需要一个强大的实验平台。这个重任落在了Kaiser和当时还是实习生的Aidan N. Gomez身上。他们开始着手开发一个全新的开源库——Tensor2Tensor(T2T)。

T2T不仅体现了代码的魅力,更展现了Kaiser对“普惠AI”的深刻思考。他一直认为当时的深度学习门槛太高:“我们发现人们仍然很难进入机器学习领域。”

2017年,《Attention Is All You Need》完成了。这个标题由Jakob Uszkoreit提出,充满了自信:“你所需要的全部就是注意力!”这一标题完美地概括了他们的核心思想:注意力机制本身便是一切。

“一个模型通晓一切”

同年,Kaiser作为主作者发表了另一篇在当时看来不那么“主流”,却更具野心的论文——《One Model To Learn Them All》。

Transformer八子传奇:从AI革命到AGI的逐梦之旅 Transformer AI革命 AGI 通用人工智能 第3张

在这篇论文中,他们提出了一个名为MultiModel的单一模型,能够同时处理图像分类、语言翻译等八个截然不同的任务。尽管它在每个单项任务上的表现未能超越那些“特长生”模型,但这是历史上第一次有研究者严肃地证明了一个统一的深度学习架构有潜力联合学习来自多个领域的知识。

“一个模型通晓一切”

与传奇相遇,见证未来

Transformer的巨大成功催生了AI领域的创业热潮。八位作者的人生轨迹开始分化。Aidan Gomez创立了Cohere, Noam Shazeer创立了Character.ai……他们纷纷成为CEO、CTO,将Transformer的技术转化为商业帝国。

然而,Lukasz Kaiser再次做出了与众不同的选择。2021年,他离开了工作八年之久的Google,加入了当时在AGI路线上最为激进的组织——OpenAI。

他是“Transformer八子”中唯一一位至今仍未创业、选择继续坚守在技术研究最前线的科学家。

在OpenAI,Kaiser的才华得到了更极致的释放。他深度参与了GPT-5、GPT-4等大模型和ChatGPT的研发工作。这些工作代表了当今大语言模型发展的最前沿。