当前位置:首页 > 科技资讯 > 正文

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算

11月24日,在第五届字节跳动奖学金颁奖典礼上,字节跳动技术副总裁杨震原分享了公司在技术探索道路上的精彩故事。

据他回忆,2014年,字节跳动创始人张一鸣找到他,提出希望利用大规模机器学习系统构建推荐引擎,以应对图片、文字、视频等多种媒体内容的个性化推荐。这一设想深深吸引了杨震原,于是他加入当时规模尚小的字节跳动。

杨震原提到,在2022年11月30日ChatGPT横空出世之前,字节跳动团队曾在2021年有过一次提前布局大语言模型的机会:当时一位同事已经训练出一个大语言模型,但团队评估后认为“该模型暂无实际应用价值”。

“所以当时确实缺乏远见。”杨震原坦诚地说道。

好在公司迅速调整方向,从2022年开始加大投入,至今已取得不少成果。“在应用层面大家可能更熟悉,豆包已成为中国最受欢迎的AI对话助手,火山引擎的大模型服务也赢得了客户信赖,根据IDC报告,火山在中国MaaS市场中排名第一。”

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算 字节跳动 人工智能 大语言模型 技术探索 第1张

字节跳动技术副总裁杨震原

以下为杨震原分享全文:

大家好,很高兴在字节技术奖学金这样的场合与大家相聚。我是一名技术爱好者,2014年加入字节跳动。从最初负责搭建新的推荐系统开始,至今已近12年。这些年来,我一路参与了字节许多技术探索。

说起字节,大多数人更熟悉的可能是我们的产品,比如抖音、今日头条、TikTok等。

我的视角可能更偏技术一些,今天借此机会,我想分享一些大家可能不太了解的技术故事。

2014,大规模机器学习与推荐系统

第一版就计划做到万亿(T)级别的特征规模

最初,创始人张一鸣找到我,告诉我他想用大规模机器学习系统来搭建推荐引擎,解决包括图片、文字、视频在内的各种媒体形式的推荐问题。他的想法深深吸引了我。

2014年,工业界最大规模的机器学习系统是搜索广告中已成熟应用的大规模离散LR(Logistic regression)。将这套原理应用到推荐系统上,挑战相当大。那时同时熟悉大规模软硬件工程和机器学习的人不多,而且除了能带来丰厚利润的搜索广告领域,其他领域都不愿投入如此高昂的硬件成本进行计算。

我们第一版就设定了一个非常激进的目标:计划2014年实现万亿(T)级别的特征规模。

这其中包含众多挑战,比如系统建模,处理好推荐的优化目标。工程上,存储和计算是最初的门槛。同时我们也要做好算法优化。关于构建目标、存储挑战,以前已分享过,今天着重聊聊优化算法。

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算 字节跳动 人工智能 大语言模型 技术探索 第2张

 LR的优化虽是成熟技术,但不同方法的效率和效果差异巨大,尤其是在超大规模场景下。今天很多同学可能不知道当年的优化器情况。如今SGD系列的方法是主流,但在2014年我们处理超大规模稀疏逻辑回归时并非如此。当时CD系列的方法使用更广。另外,百度的搜索广告使用的优化器是OWL-QN。

我们当时团队一共只有5人,还有人要负责工程,优化器准备了两套方案:1、SGD-FTRL;2、CDN(Coordinate Descent Newton )。于是选了两人分别负责,同步推进调研。

CDN优化器项目,我们起初预判潜力较大,初期进展也不错,但首次上线效果不佳,于是持续改进。两年中,始终有一个小组在坚持研究。直到SGD方法逐渐找到更多应用场景后,才最终停止了这个项目。CDN优化器项目组的同学后来转到了机器学习的其他方向,负责公司重要业务。虽然项目未成功,公司依然认可他们的探索精神。

FTRL现在提及较少,可以理解为基于累计梯度的、采用AdaGrad风格自适应、带L1正则的SGD。这个项目我们进展迅速,几个月内上线,成功实现了万亿特征的稀疏化目标,而且框架非常灵活。

14年底,我们逐步引入了FM类算法,后来演化成更通用的deep learning体系。而且从上线第一天起,它就是一个streaming training系统。

到今天,我们发现streaming更新(仅训练)、较浅层的神经网络算法在推荐中依然效果不错。它可能与现在test-time training中的某些问题相关,也许是更近似RNN的一种实现。

2020,科学计算的探索

求解薛定谔方程,就能模拟世界绝大部分现象。

大约2019年底到2020年,我们讨论过一次:未来AI还能如何发展,如何在社会中发挥更大价值?

当时的思考是,只有大规模、有价值的数据才能产生足够价值的模型和算法。线上世界,推荐、搜索、广告是主流应用。那么,还有什么场景能产生大量有价值的数据呢?显然是现实世界。但现实世界的数据采集与应用较为复杂,涉及无人车、机器人等领域。除了现实世界,我们还想到科学计算。

我们这个世界虽然纷繁复杂,但底层物理规律极为简洁。从量子力学角度看,如果今天有一台计算能力无限的机器,我们确实可以从薛定谔方程中解出当前世界绝大部分现象(忽略重力)。大量simulation会产生有价值的数据,指导机器学习进步,获得更好结果,反过来又能改进simulation。

这张图是我们当时的顾问鄂维南院士分享过的,讲的是不同尺度科学计算的分类。

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算 字节跳动 人工智能 大语言模型 技术探索 第3张

 大家可以看,横坐标代表空间尺度,纵坐标是时间尺度。这张图描绘了物理和科学计算的一些问题。比如最左下角是第一性原理计算,包括CCSD、QMC等方法,它需要计算多电子波函数。再往上,分别是做了近似的DFT(密度泛函)。再往上,不再描绘波函数,而是使用粒子做抽象,即分子动力学MD(Molecular dynamics),再抽象到粒子团簇;最上面是抽象的流体力学、有限元等更高抽象层次。那机器学习在其中价值何在?图中的L1、L2、L3、L4表示:在这些不同尺度的问题上,都可以通过机器学习方法更好地求解。例如,在量子化学计算层面,采用神经网络拟合多电子波函数。尽管物理规律描述简单,但计算异常复杂,因此机器学习能发挥巨大价值。

第一性原理计算

我们从2020年开始在这个方向持续投入。这里有一张同事提供的图,展示了我们在这方面的工作。

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算 字节跳动 人工智能 大语言模型 技术探索 第4张

图中的横坐标表示时间,这个领域早期代表性工作是DeepMind的FermiNet等,2019年我们几个人在会议室里就讨论过这项工作。这个领域叫NNQMC(神经网络量子蒙特卡洛方法)。大概意思是:QMC是量子蒙特卡洛,根据变分原理,任何试验波函数计算得到的系统能量总是大于或等于真实基态能量。于是,我们可以用神经网络表示波函数,然后在该波函数上采样并计算系统能量,再按照能量更小方向的梯度更新神经网络,最终得到更优的波函数表示。

粉色部分是我们在2021年之后的几项工作,我们已基本做到业界前沿。

这张图的纵坐标表示仿真精度,即与物理实验的接近程度。仿真越接近真实,应用前景越好。圆的大小表示仿真体系电子的数量,圆越大,意味着实用价值更高。

最右上角有一个Scaling Laws with LAVA,这是我们最新的成果。我们发现,这个问题和大模型一样表现出Scaling Law,如果使用更多参数,仿真精度持续上升。这是个好信号,说明我们可能在实用性方面还有巨大突破潜力。

在处理体系范围上,我们提出了首个适用于固体体系的NNQMC方法DeepSolid,并在二维转角材料研究上开展了一系列探索。今年的重点是将NNQMC用于研究拓扑绝缘体。

拓扑绝缘体具有特殊的电学性质:通电后,器件内部无电流,但在边缘产生电流,且几乎不发热。

拓扑绝缘体“不发热”的特性极具吸引力。因为现在的CPU、GPU都会大量发热,造成能源损耗。如果能用拓扑绝缘体替代,或许能制造超级计算机。

如何寻找拓扑绝缘体?应用上述方法,我们可以根据材料描述仿真计算得到材料性质,从而大幅提升实验效率。我们具体计算了MoTe2这种二维材料,发现其在特定密度和旋转角度θ下会变为拓扑绝缘体,且与实验结果一致。

分子动力学

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算 字节跳动 人工智能 大语言模型 技术探索 第5张(注:此img标签在原文中未完整提供,但根据上下文推测存在,已补全)

我们在分子动力学上也有很多探索。MD(分子动力学)在鄂维南老师的图中属于classic MD层次。我们的思路是:先改进正问题,用更高精度仿真为机器学习MD的力场提供更精准的label。DFT(密度泛函分析)是一个合理层次。我们首先做了DFT的GPU加速工作,我们的GPU4PySCF实现了GPU加速DFT计算的业界SOTA,相比传统CPU程序,1GPU≈500~1000CPU core加速,相同计算任务算力成本降低一个数量级。

有了更好的label,就能获得更准确的力场模型,进而做更精准的MD仿真,实现更好的性质预测。

在解决正问题后,我们可以再次训练模型,直接生成可能满足某些性质的小分子候选,这就是逆问题。这个问题是若干工业领域(能源、制药)的核心。我们的团队开发了Bamboo-MLFF和ByteFF两类分子动力学力场,能准确预测分子、固体体系的性质。其中ByteFF-Pol目前在无实验数据的zeroshot预测电解液性质上实现了业界SOTA精度。

这些工作不仅停留在实验室。今年我们已经和BYD成立联合实验室,将高通量自动化实验与科学计算算法结合,探索AI for Science在电池材料领域的工业落地。目前,GPU加速DFT计算、力场+分子动力学模拟、预测+设计模型均已投入企业合作伙伴的实际应用。

2021,PICO——XR的探索

加大基础技术投入,追求核心体验跨越式提升

字节跳动的发展离不开硬件的革新。大屏手机、高清摄像头是抖音、TikTok等产品发展的土壤。那么,接下来还有什么交互体验能超越视频呢?

XR有潜力带来全新体验。2021年,字节收购了Pico团队。

收购后,我们同时推进两条产品路线:一条以当前产品形态为主,投入资源运营视频、直播等内容,采取较激进的营销策略;另一条是投资基础技术,追求核心体验的大幅提升。

2023年,我们决定减少内容和营销投入,更坚定地投入技术路线。这是因为当时硬件体验尚未成熟,难以支撑大规模市场应用。这次调整曾引发误解,不少人以为字节放弃了这一方向。其实恰恰相反,23年起我们在XR上的技术投入比以往更多。

接下来,我分享一些路线二中的技术探索。

首先是清晰度。

XR要模拟人眼观察真实世界的体验,关键指标是PPD(每度像素数),即人眼每度视角包含的像素数量。该指标与观看距离、屏幕PPI(像素密度)强相关。

PPD大于30可看清文字,40会比较清晰。PPD达到60时视觉体验接近视网膜级清晰度。2021年,Pico 3、Quest 2等主流产品的PPD其实小于20,且这还是中心区域,边缘更差。如果XR产品连字都看不清,应用场景必然受限,这是需要解决的重要挑战。

2022年我们开始研究解决方案,最终决定与供应商合作启动MicroOLED定制。MicroOLED是一种在单晶硅片上制备主动发光型OLED器件的新型显示技术。相比其他显示技术(如高PPI的LCD屏),microOLED在实现单眼4K等级超高分辨率时,仍能保持更小面板尺寸,从而使MR头显轻便的同时获得更高PPI和整体清晰度。

 

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算 字节跳动 人工智能 大语言模型 技术探索 第6张

对比iPhone,iPhone 17 Pro Max是6.9英寸,PPI为460。我们2022年定制MicroOLED的目标是接近4000PPI,约为iPhone的9倍,挑战巨大。

MicroOLED虽能实现超高PPI,但每个像素点极小,导致屏幕亮度上限较低。我们通过导入微透镜(MLA)提升亮度,副作用是色亮度均一性变差。这就需要结合光学设计,通过主光线角(CRA)定制和系统性补偿,使亮度和色亮度均一性同时达到最优。 

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算 字节跳动 人工智能 大语言模型 技术探索 第7张

启动时,市场上现有产品在分辨率、亮度、功耗、成本等多个维度都无法满足要求。我们只能与供应商共同解决硬件、软件、算法问题。从2022年启动至今,终于取得较好成果。最终成品平均PPD40,中心区域超过45,达到行业领先水平。

MR也是重要技术挑战。

传统VR无法看到现实,更无法融合。MR(Mixed Reality)代表新一代技术:能看见现实,并能将虚拟物体与现实融合。但这带来巨大技术挑战。

比如SLAM技术,核心是让头显精准感知用户位置与姿态角度;为补偿运动,还需估算运动速度。同时,微显示屏上的高清图像通过光学镜头后会产生畸变(如边缘拉伸、中心放大),因此需要逆畸变处理。从源头到输出,整个流程计算量巨大,且都是对高清、高帧率视频做实时处理,延迟要求极低。在有限功耗下,这个问题尤为困难。

若处理不好,会让人产生眩晕感。如何低延迟、高精度完成计算,是核心问题。这需要强大且低功耗的算力,专用芯片才能做到。

于是,2022年6月我们正式立项,全链路自研了一颗头显专用消费电子芯片来解决处理瓶颈。芯片于2024年回片,目前进入量产阶段,各项指标均达设计要求。

实测中,我们的系统延迟可做到12毫秒左右,这非常不易。即使是世界顶尖公司,用软件方案也很难在不明显牺牲画质的前提下将延迟压到25毫秒以内。

字节跳动技术副总裁杨震原回顾AI探索历程:从推荐系统到大模型与科学计算 字节跳动 人工智能 大语言模型 技术探索 第8张

交互挑战也至关重要。要实现虚实融合,需要对现实环境进行识别。我们需要高精度ground truth进行校准与训练。为此,我们建设了专业高精度测试系统。

新的MR设备交互需要eye tracking、hand tracking,这些也需要高精度ground truth。只有收集广泛数据,才有机会让体验在更广泛人群中保持鲁棒的高质量。因此我们也做了专门的3D重建机制与高精度手势数据采集系统。

XR的路还很长,挑战众多。以上只是部分技术例子。26年我们将发布新产品,期望通过持续技术研发,为大家带来体验更优的产品。

2023,大模型的时代

2022年11月30日,ChatGPT横空出世,2023年引发广泛关注。我们在2021年曾有一次提前关注的机会。

当时一位同事也训练了一个大语言模型,但我们不知能用它做什么。我们想,是否可用于改进搜索?于是将这个预训练的LLM在搜索的relevance任务上进行fine tune,与bert模型对比,提升幅度很小,计算成本却大增。于是得出结论:这个LLM目前没什么用。所以当时确实缺乏眼光。

不过公司调整很快,2022年起我们在这一方向开始投入。现在也取得了一些成果。应用上大家可能更熟悉:豆包是中国最流行的AI对话助手,火山引擎的大模型服务也获客户认可,根据IDC报告,火山在中国MaaS市场排名第一。

技术上我们也有自身特点。得益于前期积累,我们在Infra方面做得较好。早期就建设了大规模稳定训练系统MegaScale,训练任务中MFU(浮点运算利用率)超过55%,是当时主流开源框架的1.3倍以上,效果显著,有兴趣可查阅2024年初相关论文。

我们在模型结构、自研服务器上也有很多探索,实现了大模型低调用成本。因此通过火山引擎提供服务时,才能打破业界价格下限,同时保证不错毛利。

我们的GenMedia模型、VLM、语音模型表现优异,长期处于国际一流水平。此外,大模型研究方面还有更前沿的探索,即Seed Edge计划。这里不展开讲了。

对未来大模型如何发展,我也没有答案,但可以提几个小问题,与大家共同探讨。

大家都在谈论AGI,但什么是AGI,如何评估是否达到AGI?

看法各异,我说说我的观点。假设把全世界人类的工作(从初级工作到顶尖科学家的工作)全部拿出来让AI做。设定一个比例,比如95%,如果95%的工作AI都能完成,或许就可以说真正达到AGI了。

AI能力发展极不均衡:今天大模型可在国际数学奥林匹克上拿金牌,超过99.9%的人类;但对很多工作,比如一个初中生能胜任的电话客服,大模型目前还不能完全做好。

那我们从补短板角度继续思考:为什么会这样?一个直观原因是模型的学习能力。

目前大模型是分阶段的:训练阶段和推理阶段。模型部署上线后就不再训练,或只能做in context learning。这与人类不同,人类是持续学习的。

比如电话客服,名校博士刚开始可能也不懂,但人很快学习,几天就能胜任。而且人类学习效率高,能充分利用社会环境,比如请教老员工或经理。

因此,如何让大模型提高学习能力是个重要问题。最好是每个人都能以自己的方式教知识给大模型。

第二个能力是IO能力,即与世界交互的能力。这也很明显。即便在数字世界,虽然目前大模型在视频、图片合成方面已超过人类,但在众多内容理解、界面操作等方面,模型与人类仍有较大差距。

这些都是非常基础但值得研究的问题。

有人说,2023年是人类历史上的第三个奇迹年,我觉得毫不为过。AI的发展预计会给人类社会带来巨大变革,这场变革中有无数问题需要技术人员去探索、解决。

字节跳动也会在大模型等前沿领域持续耐心探索,希望能为人类社会贡献力量。