在11月27日至28日这两天,被公认为年度科技与商业趋势风向标的36氪WISE2025商业之王大会,于北京798艺术区的传导空间成功举办。
今年的WISE大会不再是传统意义上的行业峰会,而是以“科技爽文短剧”为载体的沉浸式体验活动。
从人工智能重塑硬件边界,到具身智能敲开真实世界的大门;从出海浪潮中的品牌全球化进程,到传统行业装配“赛博义肢”——我们不仅还原趋势,更在捕捉无数次商业实践中磨炼出的真知灼见。
在后续内容中,我们将逐帧解析这些“爽剧”背后的真实逻辑,共同展望2025年商业的“风景独好”。
此次大会上,GMI Cloud工程副总裁钱宇靖发表了题为《AI应用的出海效能升级·算力破局与推理架构进化》的演讲。
GMI Cloud是一家北美AI原生云服务提供商,也是英伟达首批六大参考云合作伙伴之一。
钱宇靖指出,对于全球用户而言,AI应用多元化发展已达到“武装到牙齿”的程度,出海成为中国公司释放产能、获取新生的最佳路径。
当前,中国AI出海正经历范式革新——从过去的单向技术输出,转向算力全球化、需求全球化和价值全球化的转型。这背后,是一场隐秘的全球价值共振。
钱宇靖
以下为钱宇靖的演讲实录,经36氪整理编辑
大家下午好!
我是宇靖,GMI Cloud的工程副总裁,主要负责所有工程项目。今天分享的主题是AI应用出海效能升级,以及如何通过算力破局和推理框架进化,提升AI应用出海的效率。
GMI Cloud是一家较新的公司,我简要介绍一下。
我们专注于出海AI基础设施,是NVIDIA首批六大参考云合作伙伴之一,主要聚焦AI硬件及上层推理架构。
目前,GMI Cloud拥有三大产品线——底层计算硬件、集群管理、MaaS层推理服务。从三个维度为AI企业客户提供所需能力。
我们在全球多地(东亚、南亚、北美、欧洲、加拿大)建有自有机房,并刚投资5亿美元,在亚洲与英伟达共建GB300万卡集群的AI工厂。在中国,我们主要面向AI出海企业,助力出海业务。
进入正题,基于业务模式,GMI Cloud在2025年关注到哪些出海趋势?
当前,有人认为AI存在泡沫,也有人坚信AI应用将指数增长。作为算力提供商,我们看到AI市场确实呈指数级增长态势。
尽管不同企业和分析师对2025下半年或2026年市场有不同预测,但整体方向向上。今年,中国海外AI应用月活用户持续攀升。
全球用户,尤其是北美,已养成主动拥抱AI的习惯,AI工具使用达到“武装到牙齿”的状态,90%以上美国知识工作者熟练使用AI工具。
众所周知,国内付费软件同质化高、获客成本高,做SaaS门槛很高。
但在中东和拉丁美洲,AI应用已处于较高水平,出海市场用户教育基本完成,这为出海带来巨大需求差。因此,出海是释放产能、获取新生的最佳途径。
当然,许多国内企业已看到趋势,过去两年中,多家企业进行AI服务出海,导致AI推理需求指数级暴涨,这是我们作为算力提供商清晰感知的。
我们总结,AI出海过程中面临推理相关核心挑战,如服务及时性、扩展性和稳定性。
AI产品趋势是,流量可能突然暴增,AI出海企业难以从传统软件角度常规扩容,因为所有Token都需GPU支持,全球性扩容是重大挑战。
另一挑战是AI技术栈迭代极快。从今年1月到5月,由于多节点系统推理爆发,Token价格从高位降至地板价。
企业常需自有资源应对,因此苦恼如何跟上技术发展。
作为提供商,我们看到这些需求和挑战。GMI Cloud今年做了以下工作:
首先,作为算力服务商,我们建设机房,正与NVIDIA推进AI工厂项目,该项目由黄仁勋4月透露,利用最新GB200、GB300等大型机器,极大提升集群吞吐量。
我们是亚洲区域为数不多首批建设AI工厂的NCP之一,且为万卡集群规模。
其次,迭代集群引擎和推理引擎。两者目标客户不同——集群引擎面向有一定工程技术能力、需复杂应用的客户;推理引擎面向更轻量级、专注终端应用的企业客户。
我们的集群引擎(Cluster Engine)类似传统云,但作为AI原生云,更聚焦GPU算力。
集群引擎是标准IaaS层,覆盖底层硬件、裸金属、集群管理,并集成众多可监控性插件,提供熟悉体验。
许多出海企业习惯用海外大云如GCP、AWS,这些云关于GPU工作负载的功能,我们同样支持。我们采用特殊化IB组网技术,让客户按需选择集群尺寸进行训练。
此外,现有客户常有私有集群,面临扩容问题,我们的Cluster Engine完美解决,因已接入多云架构。客户可在自有资源与传统大云资源间切换,实现峰值扩缩容。
再谈推理引擎(Inference Engine)。推理引擎是更简单的产品,即近期火热的Serverless概念。
我们的推理引擎集成全球头部大模型,无论开源或闭源,平台均支持,仅需一个API即可访问全球最新最强模型。
GMI Cloud推理引擎支持跨集群、跨地区自动扩缩容。这与出海需求强相关。我们发现客户训练自有模型上线后,峰值流量难以承接;且不同地区用户上线后,集群地址选择影响产品体验。
因此,Inference Engine 2.0专为此场景设计,帮客户解决跨地区和跨集群自动扩缩容问题。
具体实现:我们设计三层架构,调度全球资源。所有Engine工作负载分为两种调度方式:队列基础和负载均衡基础。
队列基础适用于视频或语音类模型;负载均衡基础适用于大语言模型。我们根据工作负载特性选择调度方式。
例如,工作负载对延迟是否敏感?或成本更敏感?针对不同选项,我们调度到不同大区,再分发工作流至终端GPU。
简言之,推理引擎核心架构有五大特征:
1、全球化部署,单一平台解决全球化服务部署。
2、解决二级调度架构问题,与全球化部署相关。
3、弹性。出海模型和应用公司最大问题是弹性伸缩,因初始流量具波峰波谷特性,目标客户人群和地区有限,弹性是刚需。
4、高可用设计,保证客户工作负载随时可访问。
5、统一管理工作负载。
以上五大特征基于客户需求提供。
与集群引擎类似,GMI Cloud Inference Engine支持混合云。无论自建集群、用GMI Cloud集群,或在公有云有信用或工作负载,均可通过平台统一纳管。无需担心资源碎片化和利用率,顶层调度已考虑。
在此,小小广告。如有需求,需托管自有模型出海,可试用推理引擎2.0产品——Dedicated Endpoint,即独站式节点。
可尝试使用,选择节点部署集群和地区,并根据需求选择便宜或便捷节点。
另外,预告即将上线“GMI Studio”产品,全新打造的创作体验产品。
该产品将原本偏模型管理及部署的控制台,升级为面向创业者和用户的产品。通过GMI Studio,用户无需本地环境或复杂推理框架,即可在云端以“拖拽”方式自由组合最新AI模型及应用。
最后,畅想2026年。
2026年AI出海范式升级,是从旧范式——单向技术输出,到新范式——全球价值共振的过程。
随着AI出海浪潮加剧,AI全球化正式升维,跳出“技术单向输出”浅层认知,指向全球AI产业从“资源割裂”到“价值循环”的底层变革。它不再是AI应用地理性扩张,而是算力、技术、需求在全球范围内形成的“双向赋能生态”。
算力层,全球资源余缺互补,优质算力加速模型优化;应用层,Token从单纯API调用计量,演进为算力结算与生态激励的复合价值载体。全球AI创新共生,模型、应用、场景、算力正形成新的价值正循环。
本文由主机测评网于2026-02-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260223244.html