人工智能存储领域正迎来爆发式增长的黄金窗口期,随着Universal Storage架构与硬件解耦、软件定义等技术的突破性进展,新一代分布式存储作为高效数据基础设施,已能实现百微秒级延迟与TB级吞吐,有力支撑模型训练、推理优化与Multi-Agent协同等核心场景,逐步演进为AI时代存储层的主流解决方案。
本文深度剖析AI时代下存储软件的技术演进路线与未来发展趋势,诚邀业界同仁共同探讨行业机遇与投资方向。
硅谷AI存储企业Vast Data近期正与谷歌母公司Alphabet旗下成长基金CapitalG及现有战略投资者英伟达展开深入洽谈,计划启动新一轮融资,估值可能突破300亿美元。这家成立仅九年的公司,已先后获得Tiger Global Management、高盛、戴尔等知名投资机构和产业资本注资。2023年12月,其刚完成一轮估值91亿美元的融资,短短一年半时间内估值增长达3.3倍。Vast Data凭借存储架构的创新,赢得了市场与资本的青睐,也引发中国资本市场的深度思考:大模型究竟为存储领域带来了哪些机遇与挑战?
在AI基础设施体系中,计算、存储和网络构成最基石的三大板块。可以说,算力是引擎,存力是燃料,运力是血管,三者对AI应用顺畅运行缺一不可。然而在大众视野中,算力性能释放直观可见,存储的支撑作用却往往隐于幕后。事实上,随着全球数据量以每年36%的速度持续膨胀,预计到2030年将达到YB(尧字节)规模,如何高效、安全地存储这些海量数据,已成为让算力充分释放大模型潜能的前提:“算力决定人工智能的底线,数据决定人工智能的上限”。
自2017年Transformer架构提出至今,大模型发展的重心不断迁移。初始阶段以大模型训练为主导,核心目标是通过扩大参数规模和数据量提升模型能力。随后,大模型落地应用面临成本与效率瓶颈,推理专用芯片、MoE等与推理强相关的技术逐渐普及。智能体(Agent)的出现推动了AI技术从单一任务执行向复杂决策与交互的转变,成为AI应用最具想象力的方向。
在这一演进过程中,对于存力的核心需求也发生了显著变化,可归纳为以下五点:
一、建立在可靠性基础上的极致吞吐、低延迟和高并发
吞吐:传统互联网应用仅需MB/s级带宽,但大模型训练阶段需多GPU节点持续读写数十GB/s数据(如梯度同步);推理阶段需突发性百GB/s级吞吐(如KV缓存加载);至Multi-Agent协作阶段,甚至需要集群级吞吐,支持500GB/s~1TB/s级聚合带宽(万级QPS且每个请求附带MB级上下文数据)。
延迟:传统互联网应用如电商大促可容忍10ms级延迟,而大模型训练中AllReduce同步需亚毫秒级延迟;推理延迟超过1ms即可能触发服务降级;Multi-Agent协作需保持小于1ms的存储响应,否则会导致智能体间任务流转阻塞。
并发:传统互联网应用并发模式相对简单,依赖横向扩展与缓存,延迟和吞吐要求宽松;大模型训练需GB/s级强一致同步,存储带宽与延迟直接制约训练效率;大模型推理需高QPS与低延迟,避免KV缓存加载成为瓶颈;Multi-Agent需TB/s级实时协作,并发复杂性与一致性要求达到极致,例如多个智能体同时修改同一段记忆,需分布式并发控制机制。
二、多模态数据统一管理和版本可追溯
数据类型从单一结构化文本扩展到多模态(图像、视频、音频、3D点云等),存储方案需能同时管理对象存储、文件系统、块存储及KV数据库,避免跨格式数据拷贝导致的冗余与延迟。
在模型微调与A/B测试中,存储系统需支持数据快照与版本链,确保每次实验可复现。例如,GPT-4的RLHF阶段需追踪数万次人类反馈数据的版本差异。
为保证智能体调用外部数据的效率,元数据管理也需更加智能化,例如通过语义标签实现多模态数据的快速检索,替代传统繁琐的文件路径查找。
注:元数据是描述数据属性的结构化信息,如创建时间、格式、作者、存储位置等。它不包含数据本身内容,而是解释数据的背景与特征,类似于“数据的说明书”。
三、以存代算
AI推理的效率优化核心在于解决算力与存力资源分配的矛盾。当前AI运算仍属密集计算——注意力机制的核心计算是Query-Key矩阵相乘,其计算复杂度为O(n²),序列长度n越大,计算负担越重。在多轮对话中,相同上下文需反复计算相同矩阵,导致算力浪费。以DeepSeek 70B模型为例,每10分钟产生约25TB的KV缓存,但GPU显存仅几十GB,被迫丢弃后需重新计算。本应用于推理优化的算力被重复矩阵运算所占用。
以存代算通过存储中间结果(主要是KV缓存)替代重复计算。KV缓存的存储维度为n×d,远小于n×n的注意力矩阵,显存压力从平方级降至线性级。
基于持久化存储层与算力层协同,将容量有限的HBM显存空间扩展至外置高速存储空间,以存储IO访问替代GPU重复运算,大幅减少推理算力消耗、提升推理效率,已成为AI基础设施领域的全球共识。新一代存储软件架构将在此领域发挥关键价值,形成AI智能体推理场景中算力与存力并驾齐驱的格局。
四、支持智能体记忆持久化
原生大模型具有“失忆”特性,但智能体为实现任务连贯性与个性化服务,必须具备记忆能力。记忆数据碎片化特征明显,当前存储方案下,记忆数据分散存入图、文件、向量、对象、关系等多个模块,跨模态检索需多次查询与结果拼接,导致高延迟;分散更新可能引发记忆冲突,需额外维护事务逻辑,复杂度陡增。各模块需采用不同硬件与软件部署方案,系统部署维护复杂度高,存储空间难以全局共享。为大量智能体并行运行与相互协作构建通用、便捷的统一底层数据存储基础设施势在必行。
五、自主可控与安全性
自主可控在地缘技术博弈下已成为紧迫任务,存储成为关键防线,必须适配国产化AI生态链,同时满足KV缓存与向量库防泄密、训练数据脱敏与推理隔离等要求,确保核心数据安全。
从另一视角看,当前软件发展速度已严重滞后于硬件技术进步,成为制约AI性能释放的关键瓶颈。
从关键硬件模块发展观察:
①存储容量:增速远超摩尔定律,如NVMe SSD容量年增超50%,而摩尔定律年增约20%。
②算力跃迁:从CPU到GPU/TPU的异构计算,推动AI算力爆发式增长。
③网络带宽:RDMA技术将延迟降至十微秒级,较传统TCP/IP协议栈提升超10倍。
显而易见,硬件已进入“超摩尔时代”,与传统存储系统软件形成显著“剪刀差”:
存储设备硬件访问延迟及网络时延均已降至十微秒级,但传统系统软件栈开销仍达百微秒级——硬件性能提升被传统存储软件架构低效吞噬,导致数据洪流阻塞与算力闲置等矛盾。
传统存储架构问题可归结为OS内核依赖导致的效率瓶颈、元数据与数据混合存储的扩展性缺陷,以及存储协议分立造成的数据孤岛与迁移开销。
举例说明,三个智能体协作处理大型数据集:A负责采集数据,B负责清洗,C负责模型训练。A以高速流形式写入原始数据,因数据量大且无需修改,采用对象接口。B需读取原始数据进行清理转换并输出中间结果,因需按目录结构组织版本化数据,采用文件接口。C需高效随机读取清洗后数据块以训练模型,采用块接口,以获得最低延迟与最高IOPS。
一、OS内核依赖导致的效率瓶颈
系统调用与上下文切换开销:三个智能体进程并发发出海量read/write系统调用。每次调用都需CPU在进程与OS间进行上下文切换。当每秒请求达百万次时,CPU时间大量消耗于切换而非实际数据处理。
数据拷贝开销:数据从硬件设备经DMA传至内核缓冲区,再拷贝至智能体进程的用户空间内存。这种多余拷贝消耗大量CPU周期与内存带宽。
传统存储系统软件完全依赖OS内核完成硬件资源分配调度及外部设备读写,在高速硬件与RDMA网络时代,这一传统范式已成为严重效率瓶颈。
摆脱OS内核依赖,在存储软件内部自主高效完成内存管理、网络交互、设备读写及CPU线程调度,是新一代存储系统软件的根本技术之一,可使IO处理效率提升10~30倍,时延降低90%。类比GPU在矩阵运算等特定场景相对CPU的效率跃升。
二、元数据与数据混合存储的扩展性缺陷
元数据热点:B需频繁访问文件存储中数百万小文件,每次访问都需先查找元数据。海量元数据访问请求使存储元数据的磁盘区域成为性能热点,实际数据读写操作被阻塞,延迟飙升。即使底层为高性能SAN存储,速度也难以发挥。
全局命名空间局限:随着文件数量爆炸式增长,存放元数据的目录结构变得庞大。传统文件系统的元数据管理集中式,在大容量高并发访问下易成读写热点且难以扩展,目录列表或文件查找操作极其缓慢。
三、存储协议分立(对应图中“块接口”、“文件接口”、“对象接口”的孤立)
数据孤岛与迁移开销:A将数据写入对象存储,但B处理时无法直接高效读取,必须先将数据迁移至文件存储。同样,C为获得最佳性能,又需将文件存储数据导出至块存储卷。后果是同一份数据存储三次,不仅占用额外空间,还需复杂工程代价进行数据迁移,产生巨大网络开销与延迟,拖慢整个流水线速度。此外,数据在孤立系统间往复迁移难以保障一致性与实时性,阻碍AI融入实时业务流程。
管理复杂化:每个存储接口都有独立策略、管理与安全配置。管理员需为同一份数据在三个不同系统中分别设置备份、快照与访问权限,运维复杂度倍增。
由此可见,传统存储架构已成为AI落地应用的效能障碍,修补式优化无济于事,必须重构存储基座。
正如GPU诞生源于CPU在并行计算与高吞吐场景的固有局限,存储软件需适配“GPU + NVMe全闪 + RDMA网络”新硬件环境的技术栈——Universal Storage架构应运而生,以应对传统存储在AI原生场景中触及的天花板。
Universal Storage是一种支持多协议、多数据类型的分布式存储架构,旨在通过单一平台整合传统块存储、文件存储、对象存储及新兴KV存储、向量语义存储等,可视为对“存储软件”层的彻底重构与增强。它通过统一软件栈将所有存储资源抽象化、池化,并通过全局管理界面提供服务,使企业在计算存储需求时无需在成本与容量间权衡,也无需针对不同业务系统与数据特征采购部署多种存储产品,更无需对数据进行传统分层。
以Vast Data方案为例,阐述Universal Storage如何解决AI原生场景下传统存储架构问题。
一、统一存储池与多协议访问,消除协议分立
所有数据存放在统一全域文件系统中,提供文件、对象、块、KV等多种协议访问。
智能体A通过对象接口将原始数据写入Vast集群的Bucket中。下一秒,智能体B立即通过文件接口,像访问普通文件系统一样直接找到并处理A刚写入的文件,无需数据迁移或格式转换。同时,智能体C可通过块接口,将包含清洗后数据的目录挂载为本地高速块设备,进行极致性能的随机读取。
管理员仅需在一套管理界面设置一次数据保护、快照、备份策略及权限管理,即可对所有数据生效,无论其以何种协议被访问。彻底消除数据孤岛与迁移开销,极大简化运维,总拥有成本显著降低。
二、元数据独立存储解决扩展性难题
元数据与数据分离,由专用分布式元数据引擎管理,并存储在分布式持久内存或高速SSD中。
智能体B需列出并读取包含数百万清洗日志文件的目录。请求发出后,全局元数据引擎在毫秒级时间内返回结果。所有元数据操作由专门节点处理,完全不影响存储数据块的其他节点性能。无论文件数量多少,目录列表与文件查找都迅捷如电。智能体B可立即开始数据处理,无延迟困扰。
三、摆脱OS内核依赖实现超低延迟
智能体C需读取数据块时,Vast的用户态驱动通过RDMA直接从NVMe硬盘将数据零拷贝地送入C进程内存甚至GPU显存。如此,CPU开销极低,延迟降至数十微秒级。智能体C的GPU几乎无需等待,持续进行计算,训练效率最大化。
Vast Data为Multi-Agent协作带来根本性变革:
性能解放:全用户态存储软件与RDMA技术将硬件性能压榨至极,100%释放给应用,智能体计算不再受I/O等待制约。
无限扩展:分布式元数据引擎让数十亿文件访问变得轻而易举,智能体协作不再受系统规模限制。
极致简化:统一存储池与多协议接入使数据自由流动,智能体们可无障碍共享处理同一份数据,运维复杂度从三维降至一维。
Universal Storage架构非简单软件优化,而是一次彻底的范式转移。它将存储从“以孤立硬件设备为中心”的分散模型,转变为“以全局统一数据为中心”的聚合模型,通过软件定义方式,为AI、数据分析等现代工作负载提供前所未有的性能、扩展性与简洁性——如此价值的架构创新,注定让Vast Data在AI时代突飞猛进。
若在中国寻找对标Vast Data的企业,应具备怎样的画像?
首先需有强技术背景,长期自主研发存储系统软件,创新与工程能力兼备的团队:具备面向企业关键业务场景的分布式块存储、分布式计算及大规模公有云平台底层系统研发、工程实施与运维经验。
强调企业关键业务场景块存储经验,因其在存储模块中技术难度顶尖。企业用其承载最核心的业务系统与数据,要求存储系统支持极高频随机读写小IO、最低访问时延、最严苛的数据一致性、可靠性与业务连续性保障,堪称企业级存储的皇冠明珠。华为OceanStor Dorado与戴尔EMC等存储巨头的集中式高端存储阵列几乎垄断全球块存储市场——可以说,完整的块存储开发经验是构建覆盖全存储链条架构的基础。无法支持企业关键业务场景与核心数据的新一代存储架构,注定难以实现Universal Storage融合企业所有数据存储与智能访问的目标。
Vast Data CEO Renen Hallak曾是EMC ScaleIO核心开发者,将XtremIO业务扩展至数十亿美元规模。负责商业化的联创Jeff Denworth来自DDN、CTERA Networks与Cluster File Systems,为Vast带来二十余年先进计算与大规模可扩展大数据及云存储技术经验。CTO则曾在Kaminario与IBM担任领导职务。
其次需拥有足够战略视野、创新能力、工程能力与勇气,从底层系统创新设计,结合新一代系统架构、硬件发展及AI时代数据融合高效访问需求,研发统一分布式存储架构,适配通用硬件构建统一存储资源池,既支持块、文件、对象等传统存储接口,更需创新设计新IO访问路径与新型接口以支持AI核心场景:包括KV缓存全局持久化共享、智能体记忆体存储等,使之成为AI应用刚需品。
最后是生态开放性与硬件中立性,不依赖特定专属硬件,能无缝对接国产算力芯片、硬件、训练框架、推理框架、智能体、云计算、数据库等。
作为基础设施软件技术,基于新一代分布式存储系统软件构建的Universal Storage具备独特投资价值。由于AI催生对存储性能、扩展性、数据融合、以存代算、推理支持、RAG、智能体等大量新兴需求,传统企业级存储市场面临颠覆性洗牌机遇;同时推理、智能体、向量化、智能体上下文过程数据及物理世界数字化将进一步引发数据量爆发,驱动存储层投入大幅增长。
存储属于标品形态基础产品,若设计得当,产品方案可完全标准化,人效比与边际效益极高。
分布式架构存储具有一定耗材属性,可从小规模起步,随业务数据增长轻松扩容至数千节点。企业存满一个节点后不会删除复用,而是扩展采购新节点。移动互联网时代,企业存储更新周期通常为三到五年,AI智能体时代数据量暴涨下,这一周期将大幅缩短,基于分布式架构的Universal Storage有望成为企业构建下一代存储时的首选方案。
新一代Universal Storage存储软件技术护城河深,目前全球范围内也缺乏类似开源软件可供借鉴与商业包装,仅技术与工程门槛就能阻挡绝大多数模仿者。客户迁移成本高,营收质量与可持续性往往更优。
正因如此,新一代Universal Storage存储软件赛道值得高度关注。相信在智能体应用爆发的未来,中国必将诞生比Vast Data更加卓越的存储软件巨头。
本文由主机测评网于2025-12-26发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251212709.html