当前位置:首页 > 科技资讯 > 正文

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练

麻省理工学院博士、清华大学杰出校友肖光烜正式宣布加入Thinking Machines,未来将专注于大模型预训练的前沿探索。

MIT天才博士刚刚完成学业,便迅速投身于OpenAI前CTO创立的初创企业!

近日,肖光烜(Guangxuan Xiao)通过社交媒体宣布,他已顺利完成MIT博士学位。

下一步,他将正式加入Thinking Machines团队,致力于大模型预训练的研究与开发。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第1张

在评论区,英伟达科学家、xAI研究员以及UCSD等多位业界大咖纷纷向他表示祝贺。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第2张

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第3张

清华双学位学霸,MIT博士开启非凡人生

翻阅他的个人主页,一段丰富多彩的学术与生活经历徐徐展开。

肖光烜本科就读于清华大学,获得计算机科学(主修)与金融学(第二学位)双学士学位。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第4张

本科期间,他曾荣获清华大学综合优秀奖学金(2019)、全国大学生数学建模竞赛一等奖(2020)、国家奖学金(2020)以及清华大学“未来学者”奖学金(2021)等多项荣誉。

2020至2021年,他以访问学生身份赴斯坦福大学计算机系从事科研工作。

2022年,肖光烜进入MIT攻读博士学位,师从韩松(Song Han)教授。

他的研究方向聚焦于深度学习的高效算法与系统,尤其关注大规模基础模型(Foundation Model)。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第5张

2022年9月至2026年1月,他在MIT EECS担任全职研究助理。

读博期间,他多次在全球顶尖科技公司实习,积累了丰富的工业界研发经验。

2023年,他在Meta实习,研究方向为“流式语言模型的高效注意力机制”,相关成果已在arXiv发表。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第6张

论文地址:https://arxiv.org/pdf/2309.17453

 

2024年2月至5月,他加入英伟达实习,专注于长上下文大语言模型的推理加速。

他与团队提出了DuoAttention,通过结合检索与流式注意力头,实现了高效推理。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第7张

论文地址:https://research.nvidia.com/labs/eai/publication/duoattention/

 

随后,他还参与了多项核心研究,包括:

XAttention:基于反对角评分的块稀疏注意力机制

StreamingVLM:面向无限视频流的实时理解模型

FlashMoBA:混合块注意力(Mixture of Block Attention)的高效优化

值得一提的是,肖光烜在科研之外兴趣广泛,热爱足球、乒乓球、围棋和钢琴。

他曾担任院系足球队队长兼先锋,贝多芬的作品是他的最爱。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第8张

一篇博士论文,破解大模型三大核心难题

相较于闪亮的履历,肖光烜的博士论文本身更值得深入剖析。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第9张

不可否认,当今大模型虽功能强大,但成本依然高昂。

显存爆炸、推理延迟、长上下文内存溢出,这些都是LLM工程团队日常面对的挑战。

论文《Efficient Algorithms and Systems for Large Language Models》提供了一套从工程到理论、从算法到架构的完整解决方案。

论文中,他们提出了SmoothQuant,巧妙解决了长期困扰业界的激活值异常问题。

SmoothQuant通过数学等价变换,将量化难点从“激活”转移到“权重”,首次在十亿级模型上实现W8A8无损量化,无需重新训练,显著降低显存并提升推理速度。

针对超长序列,StreamingLLM揭示了“注意力汇点”(attention sink)现象:即使无语义,初始token也会被后续token持续关注,其作用在于数值稳定。

基于此,他们实现了常数内存的流式推理,将模型上下文长度从数千扩展到百万级。

进一步,StreamingVLM将该思想推广至多模态,能够处理长达数小时的视频内容并保持时间一致性。

对于超长上下文,团队还提出了互补方案:

KVCache过大,采用DuoAttention

注意力头存在分工:少数负责全局检索,多数关注最近上下文。DuoAttention采用混合策略,大幅降低显存且性能几乎无损。

预填充(Prefill)过慢,采用XAttention

利用反对角线评分机制,仅识别并计算必要注意力块,实现显著加速。

论文最后,通过对MoBA(块混合注意力)的信噪比分析,证明理论上块越小越好,但受限于GPU,FlashMoBA通过定制CUDA内核使小块架构可行,最高实现9倍速度提升。

这篇论文构建了一套高效大模型的完整框架,既回应了当下挑战,也为未来普惠AGI奠定了基础。

平均年薪350万,碾压OpenAI

最后聊聊备受关注的薪酬话题。

去年硅谷人才争夺战中,Business Insider独家披露了Thinking Machines(TML)为员工开出的薪资——基础年薪高达50万美元(约350万元人民币)。

MIT博士肖光烜加盟OpenAI前CTO初创公司Thinking Machines,主攻大模型预训练 肖光烜 MIT博士 大模型预训练 Thinking Machines 第10张

根据招聘数据,TML向两名技术员工支付45万美元基础年薪,另一名员工高达50万美元。

第四名员工为“联合创始人/机器学习专家”,年薪同样为45万美元。

这些数据来自2025年第一季度,早于Murati以100亿美元估值完成20亿美元种子轮融资。

总体而言,TML为这四名技术员工提供的平均年薪达462,500美元,明显高于业内成熟LLM公司——OpenAI相关文件中29名技术员工平均年薪为292,115美元(最高53万,最低20万),Anthropic 14名技术员工平均年薪为387,500美元(区间30万至69万)。

虽然不及Meta的超高薪酬,但这一水平在硅谷仍属顶尖。

果然,21世纪最宝贵的还是人才。

参考资料:

https://x.com/Guangxuan_Xiao/status/2008779396497502337  

https://guangxuanx.com/  

https://scholar.google.com/citations?user=sRGO-EcAAAAJ  

https://www.eecs.mit.edu/eecs-events/doctoral-thesis-efficient-algorithms-and-systems-for-large-language-models/

https://www.businessinsider.com/muratis-new-ai-startup-salary-technical-talent-2025-6