当前位置:首页 > 科技资讯 > 正文

Positron AI引领AI硬件革命,挑战英伟达霸主地位

近年来,人工智能领域的竞争愈发激烈,特别是下一代AI技术的角逐中,一家名为Positron AI的初创公司正崭露头角。其雄心勃勃的半导体创新计划,正逐渐改变着行业格局。随着各大公司竞相解决AI系统能耗激增的问题,Positron及少数几家挑战者坚信,全新的芯片架构将削弱英伟达等巨头的控制力,并重塑AI硬件的未来。

Positron AI近期宣布成功完成超额认购的5160万美元A轮融资,使得其今年的融资总额超过7500万美元。这笔资金将助力Positron第一代产品Atlas的持续部署,并加速第二代产品于2026年的问世。

Positron AI首席执行官Mitesh Agrawal表示:“我们创立Positron是为了满足现代AI的需求:旨在以最低的单位token生成成本和最高内存容量运行前沿模型。我们高度优化的芯片和内存架构能够支持在单个系统中运行超级智能,目标是让系统运行多达16万亿个参数的模型,涵盖数千万个上下文长度的tokens,或内存密集型视频生成模型。”

Positron AI何许人也?

Positron AI由首席技术官Thomas Sohmers和首席科学家Edward Kmett于2023年共同创立,前Lambda首席运营官Mitesh Agrawal加入担任首席执行官,以扩大公司的商业运营规模。在短短18个月内,该团队仅用1250万美元的种子资金就将Atlas推向市场。在完成A轮融资之前,他们验证了产品性能,获得了早期企业客户,并在部署环境中完善了产品。

如今,随着采用率的不断提高和产品路线图的清晰,Positron AI正在开发定制ASIC,以解锁推理的更高性能、功率效率和部署规模。

Positron AI引领AI硬件革命,挑战英伟达霸主地位 AI  人工智能 芯片架构 ASIC 第1张

据该公司在领英介绍,Positron AI为企业和研究团队提供了供应商自由度和更快的推理速度,允许他们使用专为生成式语言模型(LLM)和大型语言模型(LLM)全新设计的硬件和软件。凭借更低的功耗和大幅减少的总体拥有成本(TCO),Positron AI让您能够运行热门的开源LLM,以高token率和长上下文长度为多用户提供服务。同时,Positron AI还在设计自己的ASIC,以将推理和微调功能扩展到支持训练和其他并行计算工作负载。

该公司团队表示,其创立Positron AI的初衷很简单:通过最佳性价比和功耗比的生成式AI推理系统,让每个人都能拥有超级智能。

据Positron AI所言,我们花费了无数个夜晚应对臃肿的GPU,深知必须做出改变。GPU虽是一个良好的起点——但长期的Nvidia短缺、巨大的功耗和内存瓶颈正在扼杀我们大规模有效部署Transformer模型的能力。

“我们厌倦了眼睁睁地看着计算周期(和预算)因GPU效率低下而消失。因此,我们决定自己动手,创建了专门用于高效运行Transformer推理工作负载的方案。”Positron AI团队介绍。如他们所说,其方案具备以下特征:

  • 内存带宽利用率超过90%(而GPU约为30%);
  • 每个推理机架的功耗降低66%;
  • 不再受供应商锁定或GPU短缺的困扰。

PositronAI的第一代产品Atlas现已上市,我们很高兴地宣布,Positron的第二代产品将于2026年上市。Positron致力于最大限度提升Terachip的内存带宽和内存容量(每个芯片最高可达2TB内存)。

用FPGA打开局面

相关资料显示,在该公司成立仅18个月后就开始向客户交付基于FPGA的LLM推理系统。今年年初,他们也向其二级CSP客户交付了首批价值数百万美元的订单系统。

据该公司CEO Sohmers所说,目前另有20家潜在客户正在直接或远程评估Positron基于FPGA的AI设备Atlas。Positron的客户包括运行本地或主机托管基础设施的企业以及二级云服务提供商(CSP)。

Sohmers补充道:“我们进行的大部分对话,尤其是关于更大规模部署的对话都是与那些本身就是CSP的公司或提供大规模网络服务的公司进行的。”

“当我们创立Positron时,我们专注于只有两件事很重要:从基于Nvidia的系统获得完全无缝的体验。我们看到许多AI芯片初创公司的失败点在于他们花了太长时间和太多时间才进入市场。”Sohmers表示,并指出虽然该公司正在开发自己的AI推理加速器ASIC,但其第一代和第二代Atlas系统都是基于FPGA的。

他说FPGA无法提供GPU或ASIC解决方案的FLOPS,但它们具有其他优势。Sohmers表示公司的设备基于Altera的Agilex-7M FPGA,配备32GB HBM。

“在我们完全确定产品与市场契合之前,我们不想在构建ASIC上投入大量的时间和金钱。”Sohmers说道。“虽然其他AI芯片公司各自都有独特的问题但它们都存在产品与市场契合的问题尤其是在第一代设备上。采用FPGA使我们能够进行非常快速的迭代并在客户参与的情况下启动迭代。”

Positron AI引领AI硬件革命,挑战英伟达霸主地位 AI  人工智能 芯片架构 ASIC 第2张

据报道Positon AI的Atlas以2000瓦的功耗搭配BF16计算能力运行Llama 3.1 8B可实现每位用户每秒约280个tokens的交付。而根据Positon AI自己进行的比较在相同场景下8路Nvidia DGX H200服务器每位用户每秒仅能交付约180个tokens同时功耗高达5900瓦。这意味着Atlas的每瓦性能和每美元性能比是Nvidia DGX H200系统的三倍。当然此说法需要第三方验证。

当前版本的Atlas是一个4U系统在PCIe卡上使用四块FPGA。它被设计为一款交钥匙设备可以零步骤(无需重新编译)从HuggingFace或客户专有模型中提取二进制文件。

下一代平台将采用Positon的定制模块尺寸(类似于Nvidia SXM)将四FPGA系统缩小至2U空间并显著扩展DDR内存。

按照Positon AI所言公司团队之所以能实现如此高的内存带宽利用率关键在于其核心IP;Sohmers表示为了最大限度地提高矩阵乘法(matmul)阵列及其连接内存的互连密度Positon的工作层级低于Altera的Quartus工具。Positon的初始原型基于上一代搭载HBM的Stratix器件实现了理论峰值内存带宽的65%至70%。但升级到Agilex意味着团队可以利用Altera全新的强化Fabric NoC(片上网络)该NoC旨在支持FPGA存储器之间的快速传输而无需依赖芯片其他可编程逻辑资源所使用的通道。新的NoC拥有从HBM到可编程逻辑阵列中任意位置的SRAM块的专用路径。

下一代产品:ASIC

前面有讲到Positon AI的下一代产品是ASIC硬件。据了解该芯片将在台积电位于亚利桑那州的Fab 21工厂生产(即采用N4或N5工艺技术)而且这些卡也在美国组装这使得它们几乎完全是美国制造的。不过由于该ASIC配备了32GB HBM内存它采用了先进的封装技术因此很可能是在台湾组装的。

Positon AI的Asimov AI加速器将为每个ASIC配备2TB内存并且根据该公司发布的图片它将不再使用HBM而是使用其他类型的内存。该ASIC还将配备16 Tb/s的外部网络带宽以便在机架级系统中更高效地运行。Titan基于八个Asimov AI加速器总内存为16GB预计能够在单台机器上运行高达16万亿个参数的模型从而显著扩展大规模生成式AI应用的上下文限制。据Positon AI称该系统还支持同时执行多个模型从而消除了每个GPU只能运行一个模型的限制。

Positron AI引领AI硬件革命,挑战英伟达霸主地位 AI  人工智能 芯片架构 ASIC 第3张

Sohmers表示:“LPDDR 5X和6能够以每GB成本的四分之一获得比HBM更高的容量。封装将采用常规的有机基板这将大幅降低产品成本。”

他表示虽然LPDDR的速度不如HBM但使用Positon的IP来接近理论峰值内存带宽足以弥补这一缺陷。Positon还可以直接控制DDR上的内存刷新这使得该公司能够比HBM更接近理论峰值性能而无需承担HBM带来的功耗或成本开销。

随着竞争日趋激烈分析师警告称单靠提高芯片效率不足以应对AI工作负载的爆炸式增长。从历史上看硬件性能的提升很快就会被新的用例和日益强大的模型所吞噬。

尽管如此凭借新的资金、主要客户的关注以及高度专注的设计Positon已将自己定位于关于AI基础设施未来关键辩论的中心。它(或其任何竞争对手)能否兑现承诺将决定未来几年世界如何构建、驱动和支付AI的费用。