当前位置:首页 > 科技资讯 > 正文

Transformer八子Lukasz Kaiser:从逻辑诗人到AGI筑梦人的孤独征程

2017年,一篇标题简洁却锋芒毕露的学术论文悄然出现在arXiv预印本平台,名为《Attention Is All You Need》。

在当时的人工智能研究领域,这无异于一声惊雷。它提议完全摒弃当时主宰自然语言处理的循环神经网络(RNN)架构,仅依靠一种称为“注意力”的核心机制来构建模型。最初,质疑之声四起,但这篇不足二十页的论文迅速点燃了燎原之火。其提出的Transformer架构,以无可阻挡之势彻底重塑了AI的技术图谱。如今,从智能手机的预测输入,到生成逼真图像的DALL-E,再到颠覆人机交互的ChatGPT,其核心引擎都跳动着源自那篇论文的脉搏。据统计,该论文在Google Scholar上的被引次数已突破19.7万次。

Transformer八子Lukasz Kaiser:从逻辑诗人到AGI筑梦人的孤独征程 Transformer Lukasz Kaiser 通用人工智能 注意力机制 第1张

论文的巨大成功,也让聚光灯投向了其背后的八位谷歌科学家:Ashish Vaswani、Niki Parmar、Jakob Uszkoreit、Illia Polosukhin、Noam Shazeer、Llion Jones、Lukasz Kaiser和Aidan Gomez。他们因这项奠基性工作而被誉为“Transformer八子”。

数年之后,随着Transformer技术浪潮席卷全球,人工智能创业热潮勃兴。八子中的七位相继创立了自己的商业公司,成为AI产业界的领军人物。唯独一人,选择了一条与众不同的道路。他放弃了开创商业帝国的机会,毅然加入了以实现通用人工智能(AGI)为终极目标的OpenAI,深入参与并主导了GPT-4、GPT-5以及代号“o1”、“o3”等前沿推理模型的研发,持续在人类认知的边界执着探索。他,就是Lukasz Kaiser

Transformer八子Lukasz Kaiser:从逻辑诗人到AGI筑梦人的孤独征程 Transformer Lukasz Kaiser 通用人工智能 注意力机制 第2张

从巴黎到山景城

故事的起点,并非在硅谷喧嚣的创业车库,而是浸润于欧洲古典学术的静谧殿堂,在逻辑、数学与形式博弈的抽象世界里。Lukasz Kaiser的学术根基,深深烙印着对系统、结构与底层规则的极致追求。

他在波兰弗罗茨瓦夫大学获得了计算机科学与数学双硕士学位,随后远赴德国,在享有盛誉的亚琛工业大学攻读博士学位。在此期间,他投身于一个极其深邃抽象的领域:“自动结构上的逻辑与博弈”。这远超普通编程范畴,是对计算本质的哲学性探究。他致力于解答机器如何理解并操纵由有限自动机定义的无限复杂结构,这仿佛是在为未来的人工智能预先设计一套理解世界的元规则系统。

2008年,他完成了博士论文。次年,一个消息震撼了逻辑学界:Kaiser荣获了E.W. Beth最佳博士论文奖。该奖项是全球逻辑、语言与信息领域的顶级学术荣誉之一,评审标准极为严苛,强调“技术深度、论证力度与原创性”。Kaiser的获奖,无疑是对其理论造诣的最高认可。

这份殊荣不仅带来了奖金,更深层地揭示了他的思维模式:他擅长从第一性原理出发,构建宏大、自洽且优雅的系统来解决根本问题。这种思维范式,与他日后参与缔造同样具备宏大、自洽、优雅特性的Transformer架构,形成了深刻共鸣。

获得博士学位后,他遵循着欧洲顶尖学者的典型路径:在亚琛从事博士后研究,并于2010年受聘于巴黎狄德罗大学的LIAFA实验室,成为法国国家科学研究中心(CNRS)的终身研究员。

在巴黎,他拥有了令人艳羡的学术生涯——职位稳定、经费充足、研究自由。他的人生剧本似乎已然写就:成为一位受人尊崇的理论计算机科学家,在黑板与论文中探索逻辑的无限宇宙。

然而,历史总是充满相似的转折。正如早年的天才物理学家史蒂芬·沃尔夫勒姆在震惊理论物理学界后,选择离开象牙塔去亲手构建全新的计算宇宙(Mathematica),Kaiser的内心也感受到了另一种更强烈的召唤。

那是一种从“理论证明”转向“实际构建”的渴望。他敏锐地察觉到,一场颠覆性的技术革命正在太平洋彼岸的加州酝酿,而他,决心成为其中的一员。

RNN的困局与“注意力”的曙光

2013年,Kaiser做出了一个令同侪震惊的决定:他辞去了法国终身研究员这一“铁饭碗”,加入了谷歌大脑(Google Brain)

这是一个充满风险的抉择。他放弃了一条清晰、安稳的学术坦途,投身于当时仍被视为前沿且不确定的深度学习领域。他后来在一次访谈中风趣地解释道这种转变:“做理论计算机科学家要容易得多,因为你可以在二十年里钻研同一类问题。你可能会证明不同的定理,但在宏大的视角下,本质是相同的。” (“It‘s much easier because you do the same thing for 20 years...it’s in the big picture it‘s the same thing.” - Future of LLMs, Pathway Meetup, 2024).

这句轻松话语的背后,是一位顶尖思考者对“重复”的疏离,以及对“变革”的炽热向往。他继续说道:“深度学习则完全不同,每过一两年,你就要面对一个全新的挑战。” (“Deep learning is not like that, every two years you do a totally different thing.” - Future of LLMs, Pathway Meetup, 2024).

他精准地预见到,一个崭新的时代正在开启。当他踏入谷歌山景城办公室时,自然语言处理领域正被一座名为“循环神经网络”(RNN及其变体LSTM)的坚固堡垒所统治。

RNN仿照人类阅读,以序列化方式逐个处理词汇。但这存在一个根本缺陷:记忆短暂。面对长句时,模型很容易遗忘开头的关键信息,即“长程依赖问题”。整个AI界当时都在试图修补这座堡垒的城墙,设计更复杂的门控单元,但几乎无人设想,或许可以彻底推倒它,重建新城。

Kaiser及其团队成为了最早的“破壁者”。他精准地指出了症结:“神经网络最初是为图像识别而设计的……但句子与图像有着本质的不同。” (“When neural networks first came out, it‘s built for image recognition to process inputs with the same dimension of pixels. Sentences are not the same as images.” - AI Frontiers Conference, 2017). 图像信息是并行、全局的,而RNN却强行让语言处理变成了串行、逐步的“流水线”。

更重要的是,RNN的串行特性与硬件的进化方向相悖。“RNN非常缓慢,它们一次只能处理一个序列,步骤高度依赖前序结果。这与当时正在蓬勃发展的GPU和TPU的并行计算能力并不匹配。” (“These RNNs they were quite slow... they were very sequential. So so it was not a great fit for the GPUs and TPUs that were being built at the time.” - AI for Ukraine Talk, 2023).

此时,一缕曙光初现。2014年,Seq2Seq模型的提出带来了进步,但Kaiser等人很快发现其处理长句依然力不从心。于是,他们引入了一种名为“注意力”(Attention)的机制。其核心思想是允许模型在处理当前词汇时,能够动态地“回顾”并“聚焦”于输入序列的任何相关部分,而非仅仅依赖最终的隐藏状态。

这缕曙光起初仅是RNN的“效能增强器”,但Kaiser和同事们逐渐洞察到,它或许蕴藏着颠覆性的潜能。一个革命性的问题在团队中萌芽:如果我们彻底抛弃RNN的框架,只保留并放大“注意力”这束光,世界会怎样?

八子同心,一战定鼎

这个大胆的构想,汇聚了谷歌大脑最顶尖的智慧:Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Illia Polosukhin,以及 Lukasz Kaiser。

他们面临着一项前所未有的工程与科学挑战。为了快速迭代这个全新的纯注意力模型,他们需要一个强大的实验平台。这一重任落在了Kaiser和当时还是实习生的Aidan N. Gomez肩上。他们着手创建了一个全新的开源框架——Tensor2Tensor(T2T)。

这远不止于编码。T2T蕴含着Kaiser对“AI民主化”的深刻思考。他一直认为当时的深度学习入门门槛过高:“我们发现对于人们来说,进入机器学习领域、启动第一个模型、让系统跑起来,仍然相当困难。” (“We found it is still quite hard for people to get into machine learning, start their first model, get their system working.” - AI Frontiers Interview, 2018).

2017年,论文终告完成。标题由Jakob Uszkoreit提议,充满自信与简洁的力量:《Attention Is All You Need》。这个标题精准概括了其核心理念:注意力机制不仅是组件,它就是基石本身。

论文脚注中有一句谦逊而动人的声明:“贡献等同。作者列表为随机顺序。”(Equal contribution. Listing order is random.)

这不仅体现了团队的协作精神,更为这段历史增添了一抹传奇色彩。

《Attention is All You Need》不单是一篇学术文献,它成为了大模型时代的理论基石,是开启人工智能新纪元的密钥,为通向通用人工智能(AGI)铺就了一条前所未有的道路。

当它在arXiv上发布时,整个AI界为之震撼。时任OpenAI联合创始人的Ilya Sutskever后来回忆,他读到论文时立即意识到“这就是我们一直寻找的答案”。

从怀疑到震惊,再到全面接纳的转变迅速席卷全球。Transformer架构凭借其卓越的并行计算能力和对长距离依赖关系的出色建模,彻底瓦解了RNN的统治地位,迅速成为NLP乃至计算机视觉、语音识别、生物信息学等几乎所有AI子领域的新范式。

八位作者,凭借此役,奠定不朽功业。

当世人皆沉醉于Transformer的成功之时,Kaiser的目光,已悄然投向更遥远的星空。

“万法归一的模型”

就在《Attention Is All You Need》发表的同一年,Kaiser作为主要作者,与“八子”中的部分成员共同发表了另一篇在当时略显超前却野心勃勃的论文——《One Model To Learn Them All》。

Transformer八子Lukasz Kaiser:从逻辑诗人到AGI筑梦人的孤独征程 Transformer Lukasz Kaiser 通用人工智能 注意力机制 第3张

这篇论文提出了一个名为MultiModel的单一架构,能够同时处理图像分类、多语言翻译、图像描述、语音识别和句法解析等八项跨模态任务。尽管在单项任务精度上,它未必能超越那些高度特化的“专家”模型,但这是历史上首次有研究团队严肃地证明,一个统一的深度学习模型,具备联合学习并处理多种领域知识的潜力。

这篇论文,是Kaiser内心对通用人工智能(AGI)执念的首次公开“宣言”。他所探讨的核心议题是:“我们能否创建一个统一的深度学习模型来解决跨越多个领域的复杂任务?” (“Could we create one deep-learning model to solve tasks from multiple domains?” - AI Frontiers Interview, 2018).

在当时的访谈中,他坦诚地反思道:“这个模型是否真正理解了世界?它是否给予了我们比现有专用智能更为通用的能力?这很难断言,但我们正行进在这条道路上。或许几年之后,我们能给出更明确的答案。” (“Does this model understand the world? Does it really give us something more general than the specific intelligence that we have now? It is hard to say, but we’re on the way. And maybe, in a few years, we can tell more.”)

此言,犹如一则预言。它暗示了Kaiser的职业轨迹,必将从专注于解决“特定”问题的谷歌大脑,最终驶向那个以“通用”为终极灯塔的彼岸。

与传奇同行,洞见未来

Transformer的巨大成功,引爆了人工智能领域的创业浪潮。“八子”的人生航道开始分叉。Aidan Gomez创立了Cohere,Noam Shazeer创立了Character.ai,Ashish Vaswani和Niki Parmar创立了Adept AI Labs……他们纷纷成为商业世界的弄潮儿,将Transformer的技术潜力转化为市值巨大的商业实体。

然而,Lukasz Kaiser再次作出了一个独特的选择。2021年,他离开了工作八年的谷歌,加入了当时在AGI道路上最为坚定的组织——OpenAI

他成为了“Transformer八子”中,唯一一位至今仍未投身创业,始终坚守在技术研究最前沿的科学家。

这是一个命中注定的选择。它根植于Kaiser对人工智能终极问题的纯粹好奇心,这种好奇心超越了对财富与商业成就的追逐。他似乎在用行动回应自己多年前的设问——他选择继续跋涉在那条通往“通用智能”的漫漫长路上,无论其多么崎岖与孤独。

在OpenAI,Kaiser的才华得以极致绽放。他深度参与了GPT-4、GPT-5等划时代大语言模型以及ChatGPT的研发,并且是代号“o1”和“o3”等先进推理模型的共同发明者。这些工作,代表着当今大语言模型发展的巅峰水平。

Kaiser的历程,是一曲关于智慧、定力与远见的史诗。他是一位逻辑世界的诗人,一位AI未来的筑梦师,更是一位在时代洪流中,始终追随内心那簇理性之火的孤独探索者。他的每一次关键抉择,都非通往世俗成功的捷径,而是指向那些更为根本、更为宏大的科学谜题。

十年辗转,他亲历并推动了深度学习的进化之路:从2014年的“验证可行性”,到2017年的“架构革命”(Transformer),再到2019年的“自监督预训练”(BERT, GPT),以及2021年的“规模法则”(Scaling Laws),直至2023年的“数据质量与人类反馈强化学习”(ChatGPT)。

那么,下一步将驶向何方?

早在2021年的全球机器学习峰会上,Kaiser就以《处于“青春期”的深度学习:现状与未来展望》为题发表演讲,系统总结了深度学习过去十年的辉煌成就,并前瞻性地提出了三个关键发展方向:

  • 多模态融合:整合图像、文本、视频、音频等多种形态信息的AI能力;
  • 更大更强的Transformer:持续扩展模型规模与提升核心能力;
  • 模型即服务:AI能力将通过API和云端服务的形式广泛普及。

回首当年预言,如今均已逐渐成为现实:GPT-4V、Sora等多模态模型崛起,万亿参数巨量模型涌现,智能体(Agent)应用不断拓展,AI云服务遍及全球——Kaiser的前瞻视野,不仅引领了技术趋势,也为AI发展的航向提供了关键坐标。

如今,当被问及未来,他的思考更为深邃。他近期分享道,AI的下一个突破点在于赋予模型“思考”的能力:“未来的关键在于,引导模型通过生成更多的中间推理步骤(即‘产生更多tokens’)来进行更深层次的‘思考’,而非直接输出最终答案。” (“If you teach the model to think, then your more layers we‘re getting better generalization. Longer thinking, more tokens will give you even more.” - Future of LLMs, Pathway Meetup, 2024).

他预言,未来的计算资源分配将发生转变:从大规模、粗放式的预训练,转向在少量、精炼的高质量数据上进行海量的推理计算。这是一种更贴近人类智慧涌现的模式,也预示着人工智能即将迎来又一次深刻的范式革命。