当前位置:首页 > 科技资讯 > 正文

杨红霞:革新大模型训练与落地,InfiX.ai挑战技术前沿

深度访谈|周鑫雨 邓咏仪

文|周鑫雨

编辑|苏建勋

杨红霞,在阿里与字节的近7年大模型研发旅程中,展现出了非凡的挑战精神。

在阿里早期,她从内部业务阿里搜索推荐系统转战至当时并不被看好的大模型研究。

随后,她带领林俊旸(现通义千问负责人)、周畅(前通义千问大模型负责人)等中国大模型核心人才,在达摩院成功开发出通义千问的前身,M6 大模型。

2024年7月,杨红霞离职创业后,继续深耕模型相关技术。

尽管拥有“阿里、字节大模型核心人物”的光环,市场仍对创业公司能否与大厂竞争持悲观态度。

一年后,杨红霞携新 AI 公司 InfiX.ai 重新杀回大模型赛道。

10月初,《智能涌现》与身在香港的杨红霞进行了线上交流,深入了解她的创业近况。

杨红霞选择加入香港理工大学,而非创业资源集中的北上广深。她认为,香港拥有全球领先的人才密度以及丰厚的资金和算力补贴,这使得 InfiX.ai 能够迅速组建40人规模的团队。

在访谈中,杨红霞希望仅讨论技术细节,而不透露商业化信息。

尽管如此,我们仍能从她的技术愿景中窥见 InfiX.ai 的宏大布局:她不仅希望与顶尖模型一较高下,更渴望革新大模型的训练和落地方式。

当前顶尖模型,包括GPT,均由大型机构主导、中心化运作。杨红霞强调,这种模式需要庞大的数据、人力和算力资源。

相比之下,InfiX.ai 致力于让大模型预训练去中心化,使中小企业、研究机构乃至个人都能参与其中。

这一转变的核心在于,杨红霞发现擅长解决通用领域问题的中心化模型无法真正落地。例如,数据敏感的企业需要本地化部署模型。

为此,杨红霞提出两个核心判断:大模型要落地必须基于诸多企业数据预训练;降低预训练所消耗的资源。

近期,InfiX.ai 开源了全球首个 FP8 训练“全家桶”,包括预训练、监督微调和强化学习等。同时,公司还推出了模型融合技术以及基于此训练的医疗多模态大模型和多智能体系统。

低比特模型训练框架 InfiR2 FP8

相较于行业普遍采用的计算精度 FP16/BF16,InfiR2 FP8 在几乎无损模型性能的情况下,提升了训练速度并节省了显存消耗。

杨红霞:革新大模型训练与落地,InfiX.ai挑战技术前沿 大模型 去中心化 模型融合 技术革新 第1张

△ InfiR2-1.5B-FP8 对比 BF16 基线在推理评测集上的性能表现,两者几乎持平。图源:企业供图

杨红霞:革新大模型训练与落地,InfiX.ai挑战技术前沿 大模型 去中心化 模型融合 技术革新 第2张

△ 显存占用、计算延迟与系统吞吐量测试结果。相较于 FP16/BF16,InfiR2 FP8 将端到端训练速度最高提升了 22%,显存峰值最高节省了 14%,端到端吞吐量最高提升了 19%。图源:企业供图

  • 模型融合技术 InfiFusion

通过 Model Fusion 技术,不同领域企业和机构预训练出的不同尺寸、不同结构的领域“专家模型”可以融合成拥有更多领域知识的大模型。

  • 医疗多模态大模型训练框架 InfiMed

InfiMed 框架允许基于小规模数据和算力资源训练出的小规模参数模型在多项医学任务中展现强大推理能力。

杨红霞:革新大模型训练与落地,InfiX.ai挑战技术前沿 大模型 去中心化 模型融合 技术革新 第3张

△ InfiMed-RL-3B在7个benchmark的性能比较。例如,基于小规模数据训练的InfiMed-RL-3B在七大医疗基准测试中显著优于谷歌的医疗模型 MedGemma-4B-IT。图源:企业提供

  • 多智能体系统 InfiAgent

InfiAgent 系统能够自动分解和分配复杂任务,实现任务的自动规划和调度,降低开发门槛和成本。

杨红霞:革新大模型训练与落地,InfiX.ai挑战技术前沿 大模型 去中心化 模型融合 技术革新 第4张

△ InfiAgent 在多项标准基线上测试的结果。在需要多步推理的复杂任务(如 DROP)上,InfiAgent 领先最佳基线 3.6%。图源:企业提供

杨红霞将技术的落地领域首先放在了医疗领域,尤其是癌症领域。她坚信:“一定要选一些特别有挑战的领域,让模型能力真正有区分度。”

“去中心化”和“模型融合”在当时的国内模型赛道仍是边缘叙事。但杨红霞表示,在美国,“去中心化”的热潮已经逐渐兴起。

“去中心化”和“低资源训练”的理念逐渐得到认可。到第二轮融资时,质疑声明显减少。InfiX.ai 从提出增资到完成融资仅用了两周时间。

“未来每家公司和机构都会有自己的专家大模型。”杨红霞展望道,“这不仅让不同领域的专业模型可以融合,也促进了跨国界的知识融合。”

“中心化”与“去中心化”的并行之路

智能涌现:为何我们需要去中心化的模型训练?

杨红霞:当前模型的落地存在巨大鸿沟。中小企业、医院和政府机构想用生成式人工智能却难以实施,因为中心化大模型缺乏他们所需的领域数据。

“模型知识的注入只发生在预训练阶段。”后训练阶段全是规则。

“所以本地化部署需要持续预训练。”因为私有数据和知识无法从互联网上获取。

“去中心化”意味着在每个领域集大家之力做好领域大模型。

“去中心化”的兴起与未来展望

“我相信未来每家公司都会需要大模型。”杨红霞表示,“我们希望把大模型的脚手架做到最便宜、最易用。”