采访|周鑫雨 邓咏仪
文|周鑫雨
编辑|苏建勋
在阿里巴巴和字节跳动连续从事近七年大模型研发的杨红霞,展现了鲜明的勇于挑战的精神风貌。
早期在阿里内部,她从核心业务阿里搜索推荐系统转向,投身于初期并不被广泛看好的大模型研究道路。
随后,她引领林俊旸(现任通义千问负责人)、周畅(前通义千问大模型负责人)等这一轮中国大模型的核心人才,在达摩院成功打造了通义千问的前身,即M6大模型。
2024年7月,杨红霞从字节跳动离职创业,被曝光仍将专注于模型相关技术的探索。
尽管拥有“阿里、字节大模型核心人物”的耀眼光环,但当时市场却弥漫着悲观情绪:入局时机是否过晚,创业公司如何与大型科技企业竞争?
时隔一年零三个月,杨红霞携其新创AI公司InfiX.ai,强势回归大模型赛道。
10月初,《智能涌现》与身处香港的杨红霞,通过线上交流了解了她的创业近况。
她未选择创业资源集中的北上广深,而是加入了香港理工大学。在杨红霞看来,前往香港是一个极具性价比的决策:人工智能相关的产学研项目,享有丰厚的资金和算力补贴;由于香港拥有全球领先的人才密度,公司得以快速组建了40人规模的团队。
出于多方面考虑,杨红霞希望在访谈中仅探讨技术层面,不透露商业化细节。
但从技术角度,已能窥见InfiX.ai的宏大愿景:这一次,杨红霞不仅旨在与市面上的顶尖模型竞争,更希望革新大模型的训练和落地范式。
当前主流的顶尖模型,包括GPT,均是由大型机构主导的“中心化”模式。杨红霞解释道:“(中心化的模型)需要集中投入巨量的数据、人力和算力资源”。
但InfiX.ai的目标恰恰相反:让大模型预训练走向“去中心化”,成为中小企业、研究机构乃至个人都能参与的事务。
这一理念的核心原因在于,2023年中,当时仍在字节的杨红霞就意识到,擅长解决通用领域问题的“中心化”模型,难以实现真正落地。
例如,许多对数据敏感的企业有本地化部署模型的需求。通常,业界主流解决方案是基于企业数据,对“中心化”模型进行后训练(如微调或强化学习)。
然而,杨红霞强调:“模型知识的注入仅发生在预训练阶段,后训练提供的是规则。”这好比预训练是八年制的医学博士培养,后训练则是临床实习过程。
因此,基于企业数据后训练的模型,在实际业务中仍会出现大量“幻觉”现象。
“中心化”模型的研发经历,促使杨红霞形成两个创业原始判断:
第一,大模型要落地,不能仅依赖少数巨头机构,必须基于众多企业数据进行预训练;
第二,为了让企业也能开展预训练,必须降低资源消耗。
围绕这些判断,近期InfiX.ai开源了全球首个FP8训练“全家桶”(包括预训练、监督微调和强化学习),一项模型融合技术,以及基于此训练的医疗多模态大模型和多智能体系统。
低比特模型训练框架 InfiR2 FP8:
相较于行业普遍采用的计算精度FP16/BF16,InfiR2 FP8在模型性能几乎无损的情况下,既提升了训练速度,也节省了显存消耗。
△ InfiR2-1.5B-FP8 对比 BF16 基线在推理评测集上的性能表现,两者几乎持平。图源:企业供图
△ 显存占用、计算延迟与系统吞吐量测试结果。相较于 FP16/BF16,InfiR2 FP8 将端到端训练速度最高提升了 22%,显存峰值最高节省了 14%,端到端吞吐量最高提升了 19%。图源:企业供图
不同领域企业和机构预训练出的不同尺寸、不同结构的领域“专家模型”,可以通过模型融合(Model Fusion),整合成融汇多元领域知识的大模型。
这一技术能避免模型重复训练所造成的资源浪费。
该框架允许基于小规模数据和算力资源训练出的小参数模型,在多项医学任务中展现强大推理能力。
△ InfiMed-RL-3B在7个benchmark的性能比较。例如,基于36K RLV(可验证奖励的强化学习)的小规模数据,训练出的医疗模型 InfiMed-RL-3B,在七大医疗基准测试中显著优于业界同尺寸的谷歌医疗模型 MedGemma-4B-IT。图源:企业提供
该系统能替代人工,自动为多智能体分解和分配复杂任务,实现任务的自动规划与调度,降低了Agent系统的开发门槛和成本。
△InfiAgent 在多项标准基线上测试的结果。在需要多步推理的复杂任务(如 DROP)上,InfiAgent 领先最佳基线 3.6%。图源:企业提供
更进一步,这些注入领域知识的模型,可通过模型融合技术,整合为更强大的模型——无需重复预训练,就能获得涵盖更广知识的大模型。
此次创业,杨红霞将技术落地领域首先聚焦于医疗这块难啃的硬骨头,并进一步缩小到最具挑战性的癌症领域。
她告诉《智能涌现》:“必须选择一些极具挑战的领域,让模型能力产生真正区分度,证明我们的模型在该领域是最优的。”
杨红霞创业初期,“去中心化”和“模型融合”对仍信奉“大力出奇迹”的国内模型赛道而言,仍是边缘叙事。她回忆,当时面对合作方和投资人,仍需大量解释。
但在美国,“去中心化”热潮已逐渐兴起。2025年2月,前OpenAI CTO Mira Murati成立了新公司Thinking Machines Lab(以下简称“TML”),愿景是让个人开发者和初创企业也能负担模型训练。
“我真没想到一家尚未有实际业务落地的公司,仅宣布要做这件事,(种子轮)就能实现融资20亿美元、估值120亿美元。”
这一消息让杨红霞确信,“去中心化”将成为主流,“你可以想象湾区那帮人对这件事有多么笃定”。
待到第二轮融资,她发现质疑声显著减少。从提出增资到完成融资,InfiX.ai仅用两周时间。杨红霞透露,公司现已超募。
在她描绘的图景中,未来每家公司和机构都将拥有自己的专家大模型。不仅不同领域的专业模型可以融合,分布在中国和欧洲训练的模型,也能携带跨国界知识融合——模型融合将催生全球化的领域基础大模型。
“通用人工智能(AGI)不应成为一场仅限于顶尖玩家的算力竞赛,”杨红霞总结,“未来将演变为一场‘全民协作’。”
以下是《智能涌现》与杨红霞的对话,内容经适度编辑整理:
智能涌现:请简要说明,为何我们需要“去中心化”的模型训练?
杨红霞:我观察到当前模型落地存在巨大鸿沟。与高精尖领域、中小企业、医院、政府机构交流时,大家都希望运用生成式人工智能,但迟迟未能实现,核心原因在于现有中心化大模型缺乏对应领域数据。
需强调的是,模型知识的注入仅发生在预训练阶段。后训练阶段,模型接受的全是规则,用于指导其解决复杂任务。
因此,模型在企业或机构的本地化部署,必须启动持续预训练,因为医院、企业、机构的大量本地化私有数据和知识,在互联网上无法获取。
同时,当前不同企业或机构的数据难以共享,导致现有范式下模型无法实现全球化和全行业覆盖。
我相信未来每家公司都需要大模型作为脚手架。所以首要任务是使脚手架最经济、最易用、门槛最低,让每家企业或机构都能拥有本地化部署的模型。
其次,我们希望通过模型融合方式,将特定领域模型全球化。例如,融合不同医院的医疗专科模型,就能获得医疗领域的基础模型。
因此,所谓“去中心化”,就是在各领域汇聚众力,共同打造领域大模型。
智能涌现:你之前在字节和阿里从事的是“中心化”模型训练,对“去中心化”的关注始于何时?
杨红霞:从2023年中开始,我们已有此构想。
当时在业界,举例来说,当场景流量极大,如搜索推荐广告,不可能持续调用中心化的1.6万亿参数大模型,无法承受这种服务吞吐压力。
2021年底,谷歌CEO宣布将谷歌所有搜索引擎替换为以BERT(2018年谷歌发布的大模型)基座为主,前所未有。
当时BERT的最大模型BERT-Large,参数量仅3.4亿。因此工业界不可能在超大流量情况下时刻调用千亿参数模型。
2023年中起,我们进行多项尝试,证明在垂直领域中,30亿、70亿、130亿等小尺寸模型,可以做得比1.6万亿参数的中心化大模型更好。
到2024年中,我们验证了这一结论的正确性,领域模型小型化必是未来趋势。
智能涌现:2023年中,你仍在字节。当时无论是字节还是整个业界,对“去中心化”模型训练有共识吗?
杨红霞:当时更多人及大厂,包括现在,仍以中心化模型实现通用人工智能(AGI)为主。
相对而言,中心化路线的技术挑战较少。只要数据清洗足够干净,投入足够资金聘请人才,构建稳健的人工智能训练基础设施,加上充足算力,就能提升模型能力。
各方使命也不同。大厂肯定希望突破通用人工智能(AGI),这也是我乐见之事。
但即使在今天,各大厂真正从事大模型核心研发的人员仍非常有限,大量人力投入数据清洗,更不用说非大厂机构。
各领域专家,如医生,对大模型很感兴趣。但他们直接调用任何开源模型的API服务,效果均不佳,充满幻觉。
智能涌现:那在阿里和字节时,你相信“中心化”吗?这与现做的“去中心化”截然不同。
杨红霞:我依然相信,包括现在。
因为中心化汇聚所有资源,减少技术挑战,必将带来重大技术突破。
但去中心化必将推动技术在各领域广泛应用。因此我认为两条路径均正确。
智能涌现:2024年中,何种进展让你确信去中心化技术正确?
杨红霞:2024年初我们已验证,在垂直领域中,小模型可超越大模型。
但当时少有人关注此点,现已成为共识。例如MIT Tech Review将小语言模型列为2025年十大突破性技术之一。
验证此事后,自然想到直接融合不同领域模型,无需重新训练,就能获得知识更广的大模型。
约那时,Sakana AI创始人Llion Jones(也是Transformer作者之一)已实现部分工作。他们团队阵容豪华,估值很高,首轮由软银领投,次轮获英伟达投资。
因此我们觉得去中心化也是一条充满魅力且值得期待的道路。
△ Sakana AI 联合创始人 Llion Jones(左)和 David Ha(右)。图源:互联网
智能涌现:若类比中心化模型进展,团队处于何阶段?GPT-3吗?
杨红霞:GPT-3的判断较准确,属0-1阶段。
智能涌现:去中心化的GPT-4时刻将是怎样?
杨红霞:我们正推动一事,例如将model fusion(模型融合)平台开源至GitHub和HuggingFace。
商业等领域数据敏感且具价值,大家不愿贡献至开源社区。无国界、不强调商业价值的科学领域则较易。
若融合全球科学领域所有模型,获得科学领域的基础模型(science foundation model),且表现超越当前中心化模型,这可能是一个GPT-4时刻。
智能涌现:目前团队工作均开源,何时考虑闭源?
杨红霞:目前未考虑。当下我们希望先做好社区第一步。开源未做好,则无需考虑闭源。
智能涌现:未来去中心化模型会替代中心化模型吗?
杨红霞:我认为是共存状态。
我喜欢回顾历史。以计算机为例,最初计算机是超大规模一体机(mainframe)。但如今每人所用小手机都是分布式、去中心化的小计算机。
每日你在手机上的任何操作实质是编程,只不过手机图形用户界面(GUI)封装极好,无需复杂编程。
因此我认为大模型同理。我深信中心化必将带来重大技术突破,但若希望技术广泛应用,去中心化必是未来,与计算机道理相同。
至今我更加坚信此事。因我们在model fusion(模型融合)上获得一系列成果,包括模型融合scaling law的证明。
还有OpenAI CTO Mira成立Thinking Machines Lab。我注意到,这家尚未有实际业务落地的公司,仅宣布要做此事,就能实现融资20亿美元、估值120亿美元。
你可以想象湾区那帮人对此事有多么笃定。
△ 前 OpenAI CTO、Thinking Machines Lab 创始人 Mira Murati。图源:WIRED
智能涌现:湾区开始相信此事,但国内对此技术态度如何?融资过程中收到哪些反馈?
杨红霞:我们融资相对顺利。首轮融资时,让他人接受我们思路,仍需较多解释。
但该轮也较快。我们股东包括一家顶尖国际化投资机构,流程较长。但从约2024年11月获得term sheet起,至今年3月左右,完成全部融资交割。
现进行第二轮融资(PreA)。从提出增资到完成融资,仅用两周,现已超募。
相比TML 120亿美元估值,我们非常便宜,仅数亿美元。我们无需大量融资,尤其我们走低资源训练路线。
智能涌现:团队此次推出医疗多模态大模型低资源训练框架InfiMed。为何先从医疗领域入手?
杨红霞:大模型是“大杀器”,应用于解决人类极具挑战性问题。
我信奉一理念,若今日以简单任务或benchmark,无法区分大模型能力。因它可能表现均佳,无法知悉哪个领域更优,且成本高。
在模型上我们已投入高成本,总需带来重大突破,影响广泛领域。
另一方面,必须选择极具挑战领域,让模型能力产生真正区分度,证明我们的模型在该领域最优。
例如医疗,我们选择癌症场景,未选其他。未来老龄化普遍,影响人群广。同时癌症筛查极复杂,其数据为多模态,分子、血液影像比文本复杂得多。
智能涌现:从事挑战性研究,是你一贯风格吗?还是创业后形成?
杨红霞:我一直如此。
例如早期在阿里,我做推荐系统,这是互联网核心应用。但当时我主动选择做大模型,相当于放弃推荐系统这最具技术热度、最火应用,投身尚未获普遍认可的技术。
做推荐系统时,我们测试过不少方向。如图神经网络(Graph Neural Network)曾火爆,我们投入大量人力物力研发,包括周畅、林俊旸等均参与。
但我们发现图神经网络不佳,便果断放弃。随后大家共同做大模型。因此我们能开放谦虚接受技术挑战与新方向。
智能涌现:从大厂到创业,感受到资源落差吗?团队如何分配有限资源。
杨红霞:我们肯定不能像大厂般投入。但说实话,今日大厂多少资源被完全利用?真正到手的技术研发资源,可能远少于想象。
虽然现资源有限,但我们提倡低资源模型训练,故无需过多资源。一旦资源受限,便充分发挥技术能力。
智能涌现:提高团队资源利用率核心是什么?
杨红霞:判断正确方向。
我发现谷歌在技术探索上,更倾向给予团队和个人充分自主空间,支持尝试不同方向。但此模式下,资源可能相对分散,致部分方向难形成足够突破力度。
而OpenAI思路不同,他们当时聚焦“next token prediction”单一核心方向,这让我觉得,若有核心技术人员精准把控方向,团队齐心聚焦一处,常能提升成功概率。
智能涌现:公司在研究或商业上竞争对手是谁?你之前提及Sanaka AI和TML。
杨红霞:我和团队成员说,我们从不紧盯某家公司,而是永远关注关心领域中最佳发布。例如我们做医疗,目前谷歌MedGemma是领域最佳,那我们便要以更小尺寸、更低资源做得更好。
比起商业化竞争,我们更关注技术本身,在每点上做到极致。实话讲,我仍希望更纯粹。
智能涌现:去中心化、模型融合路线上已有Sakana AI,你还有哪些研究空间?
杨红霞:Llion Jones出身于演化算法(evolutionary algorithm),该算法学习效率较高,但有强要求:model merging必须基于同构模型。
例如model merging的模型必须均基于Llama 3.2微调获得,但Llama、DeepSeek、千问等异构模型无法融合。
看到这些成果后,我们也觉得异构模型融合定是可探索之路。因此这是我们2024年7月正式创业的契机。
△ 模型融合的Scaling Law。图为对不同融合方法和不同融合模型个数的大规模实验验证。图源:企业供图
智能涌现:实现异构模型融合,难点有哪些?
杨红霞:难点较多。去中心化完全无抄作业对象,不像中心化,最初从GPT-3开源开始抄。Sakana AI最初有发布,我们尝试发现不完全有效。
如今模型在专业领域提升,可视为后训练,如微调和强化学习,可简单理解为仅调整一函数。
但多模型融合,意味需兼顾多函数,且每模型参数量巨大,并需考虑模型间冲突。理论上难得多。
因此我们需突破多点。例如范式定义。此前无人定义model fusion的SFT(监督微调)和强化学习如何做,我们将其定义出。
一般情况下,大家做SFT采用交叉熵损失函数(Cross Entropy),我们采用基于图的损失函数(Graph-based Loss)。
前者更多实现token层面对齐,但我们不仅实现token层面对齐,同时通过图加入全局语义依赖关系对齐。
类似步步突破,叠加实现模型能力提升。
智能涌现:何时在技术上有突破?
杨红霞:约今年2月,我们model fusion(模型融合)首次发布,实现四个异构模型融合。
这四个模型在18个推理Benchmark(包括解数学题、写代码、指令遵从、语义推理等)上平均得分75-77分。
我们选择相对更困难路线。Sakana AI和TML均选同构路线。同构模型融合较易做,但我们选择异构。
2月我们发布异构模型融合时,性能评测从77分提至79分。虽仅2分提升,但让我们看到曙光。
我们现结合Graph-Based loss及强化学习泛化性,最高得分已逼近88分,我认为这是质突破。
智能涌现:创业后技术研发节奏,与大厂相比有变吗?
杨红霞:我有信念,最优秀团队无需天天拿小鞭子在后面监督。
将一群特别优秀人聚一起,他们间相互赶超加超强自驱力自然推其持续向前,完全无需担心研发节奏。
但创业后仍需为团队设定重大发布时间节点。实话讲,此阶段大模型赛道上大家集中发力,故时效性特别重要。
智能涌现:你如何规划发布时效?
杨红霞:因团队中有许多博士生,技术成果发布,我们一般关注最顶尖人工智能会议。
同学们获有效研究成果后顺手写论文,并发布至社区,大家均觉不错。
但现人工智能会议太多,有些最近质量下滑厉害。因此目前我们仅看三会:
一是NeurIPS,每年约5月投稿;二是ICLR,每年9月投稿;三是ICML,每年约1月投稿。
当然不排除期间有重大发布。例如我们医疗模型InfiMed-RL以7B参数规模超GPT-5,此成果肯定立即发布,无需等待。
智能涌现:对应用层公司,常听闻快比完美更重要。对你而言,快与完美如何平衡?
杨红霞:我们在追求时间点同时,对结果质量要求相当高。
我一直和大家讲,所有发布成果代表我们技术声誉。声誉和口碑一步步积累。同时但凡有一次发布结果不尽如人意,大家立即产生质疑。
因此哪怕不发布,我也要求成果质量。
智能涌现:从大厂研究员到大学教授和创业者,需适应不同身份吗?
杨红霞:其实不太需要,因我较纯粹,一直专注技术,说白了在哪里无所谓。
但创业过程中,我找到一群特别优秀的技术同学。大家对去中心化认可度极高,便共同奋斗。
智能涌现:2024年5月左右你从字节离职后,其中一动作是加入香港理工大学。此决定如何做出?
杨红霞:先说结论,大疆、商汤均孵化自香港大学,故香港大学有优秀孵化基因。
我参加一名为RAISe+(产学研1+计划)的项目,即香港区政府投入100亿元,资助100名大学教授孵化项目。
且此资助不占公司股份,仅为更好促进产学研转化,相当于“白给”,但需在5年左右时间IPO。
还有一项目是香港数码港超算中心人工智能资助计划,一般通过评审,算力上享70%减免折扣。我们是有史以来唯一获90%减免折扣团队。
港理工在此方面更极致。我校在各城市非成立分校,而是成立研究院,与本地政府共同将教授成果在本地转化。
加入港理工前,我未在学术界待过一天。一般获正教授,需在学术界待很长时间。但当时我未面试,直接获港理工正教授教职。
当时校长和我说,你无需面试,我们看好你技术及影响力。此点很打动我。
△ 香港理工大学。图源:视觉中国
智能涌现:受数据、市场等资源限制,少有AI企业选择香港。
杨红霞:大模型在内地发展极好,包括我原在内地有许多资源链接。
但香港有独到优势,如教育。香港面积不大,但有8所大学,其中5所大学全球QS排名前100内。
全球任何城市无此高人才密度。我们博士生资质相当强。
智能涌现:筹备去中心化模型训练创业,需要哪些资源?
杨红霞:一般生成式AI初创公司,若融100元,80元购算力,20元聘人。大家可能均“二八原则”。
我们对人能力要求极高,例如能做FP8之人不多,一般做算法者仍在PyTorch层。
GPT-4发布时,OpenAI仅200多人。我当时将所有人简历看一遍。
现OpenAI约3000多人,随团队规模扩大,内部管理面临相应挑战。从市场反馈和实际使用体验看,GPT-5发布表现尚未达部分用户预期。
因此核心技术突破,人数非关键,人质量才是关键。每进团队者,我们有严格把控。
故我们现仅近40人。从技术研发角度,是良好人员规模。约半人背景极强,我认为他们均可获大厂special offer。
智能涌现:你对人才要求是什么?
杨红霞:第一,代码能力必须超强,我们有严格考核。很多时候候选人简历漂亮,但代码层可能直接被筛掉。
第二,需极强好奇心。说白了相较于中心化模型训练,去中心化是新技术,尚有许多值得探索。例如低比特很多事无法照抄,需自行探索研发。
第三点特别重要,必须有良好合作态度。我认为大模型时代必是集团军作战,绝不可能说现有三四十人,每人分头搞小事,那我们永难做大。
至于有无优质大模型背景,其实均无妨。
智能涌现:团队如何分工?
杨红霞:我们有几大技术方向:基础模型、模型融合、应用。例如基础模型部分,我们关注低比特,其中一拨人关注大语言模型预训练,一拨人关注多模态模型预训练。
但每方向我未划分算法、AI Infra(AI基础架构)等岗位,我对同学要求是数据、算法、AI Infra端到端均需做,他们需学会从不同角度理解模型训练。
智能涌现:你之前助阿里和字节搭建模型团队。自行创业建团队与在大厂建团队有何不同?
杨红霞:似无不同。原在大厂,我也经历从0到1搭建团队做新方向。招人过程实际相同。
确实可能因我们之前工作有较好影响力,故招博士生或公司招人,找我们者挺多。
我觉得创业公司一好处是灵活,在大厂各团队分工限制相对死板。我们公司只要你学有余力、工作有余力,任何模块均可尝试探索。
我们团队有原大厂成员,但过去一年成长速度远快于大厂。因在大厂,他可能只能天天做微调数据构造或benchmark构造工作。
但在创业公司,端到端均可做,任何人可做模型训练全链路中不同层面事,原想都不敢想。
智能涌现:你如何平衡学术研究与商业化落地?前者需耐心,后者求快。
杨红霞:从我们角度看,两者无区别。将技术做到极致好,商业化上才有极强竞争力。
我们商业化慢慢跑起,感兴趣潜在客户极多,我们完全不愁订单。
智能涌现:InfiX.ai商业模式是什么?
杨红霞:我们暂不想谈过多商业化事,希望能专注技术本身。
我们商业化实际有3种模式,但涉及商业机密。请相信我们规划良好!
智能涌现:作为创业团队,你如何平衡纯粹关注技术与商业化压力?有受外界商业化层面压力吗?
杨红霞:我觉得大家必须有耐心。若无耐心,哪怕快速崛起、看似风光,其实资金迅速耗尽,也无产出。
OpenAI 2015年成立,但中间约七八年,直至2022年10月GPT-4发布,大家才停止质疑。之前GPT-1、GPT-2、GPT-3发布,无任何商业化。
国内我也很尊敬DeepSeek,即使梁文锋非常富有,他仍旧笃定,就要把技术做到极致。
因此我们希望先集中所有精力于技术。若你技术断崖式领先,则无需担心商业化。
欢迎交流!
本文由主机测评网于2026-01-17发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260118246.html