英伟达面向个人用户的AI超算DGX Spark正式发售!配备128GB统一内存,融合系统内存与GPU显存,支持双机互联,可直接运行405B参数的大模型(FP4精度),性能逼近当前最大开源模型。强大实力融入紧凑设计,尺寸与Mac mini相当,仅售3999美元!
3999美元,即可拥有迷你AI超算主机!
英伟达 DGX Spark正式上市,体积仅如手掌大小!
英伟达将于10月15日通过官网和第三方零售商开售。
这并非普通消费级台式机,而是专为AI开发者设计的迷你PC,终于迎来上市时刻!
核心参数一览:
搭载英伟达GB10 Grace Blackwell超级芯片
迷你电脑重约1.18公斤
提供1 PFLOPS的FP4 AI性能
128GB一致性统一系统内存
ConnectX-7智能网卡
最高支持4TB存储
尺寸150毫米 x 150毫米 x 50.5毫米
它更侧重于AI训练任务,而非通用计算。
DGX Spark运行定制版DGX OS(基于Ubuntu Linux),预配置AI软件,非Windows系统。
在今年3月GTC大会上,黄仁勋发布了两款个人AI超算DGX Spark和DGX Station。
Spark此前代号「Digits」,堪称全球最小AI超算!
更大规格的Station型号价格待定,主要面向AI开发者、研究人员等,用于桌面级大模型原型设计与推理。
为庆祝DGX Spark交付,黄仁勋亲赴德州星舰基地,将首批设备交给SpaceX首席工程师马斯克。
图中可见,马斯克还留下了亲笔寄语。
From a single spark,A world of intelligence!
To Jensen, Ad astra!
由一束火花,点燃智慧世界!
致黄仁勋,奔向星辰!
中间「J. H.」为黄仁勋签名。
「ad astra」系拉丁语,寓意探索卓越。
回溯2016年,黄仁勋向马斯克交付首款AI优化GPU。
近十年后,2025年,黄仁勋展示最小AI超算。
黄仁勋对马斯克可谓情有独钟!(奥特曼不知作何感想~)
网友恶搞马斯克回赠MacroHard(巨硬)给老黄,内涵十足。
英伟达首次将超算性能浓缩至桌面工作站,DGX Spark开创先河。
它将数据中心算力带入桌面,让开发者拥有每秒千万亿次运算的个人AI超算。
SGLang推理框架在数据中心表现卓越,如今借Spark走向个人市场,实现大规模推理性能与开发效率提升。
DGX Spark采用香槟金金属外壳,前后多孔金属泡沫材质,兼具质感与散热。
设计灵感源自大型DGX服务器。
机身小巧,媲美苹果桌面主机,内蕴强大算力。
背面接口丰富:电源按钮、四个USB-C(其一支持240W供电)、HDMI输出、10GbE网口、两组QSFP端口(200Gb/s带宽)。
高速接口支持双机直连,组成小型集群运行更大模型。
Spark采用USB-C供电,设计独特,外置适配器节省内部空间,但需注意线缆固定。
DGX Spark核心为定制GB10 Grace Blackwell超级芯片,集成20核CPU与强大GPU模块。
AI算力达1PFLOPS(FP4稀疏精度),推理性能约等于桌面RTX 5070系列。
最大亮点为128GB一致性统一内存,CPU与GPU共享数据空间,无缝加载大模型,减少数据搬移。
双机互联可扩展至405B参数模型(FP4精度),逼近最大开源模型。
紧凑机身融合数据中心级硬件,堪称工程奇迹。
但统一内存带宽约273GB/s,低于专业显卡,可能成为AI推理瓶颈,然128GB容量仍具独特优势。
评测结果已发布。
完整评测:https://docs.google.com/spreadsheets/d/1SF1u0J2vJ-ou-R_Ry1JZQ0iscOZL8UKHpdVFr85tNLU/edit?pli=1&gid=0#gid=0
Spark可运行GPT-OSS 120B、Llama 3.1 70B等超大模型,适合原型验证。
中小模型批量推理时,吞吐效率极高。
GPT-OSS 20B测试中,Spark预填充吞吐量约2053 tokens/s,解码49.7 tokens/s;RTX Pro 6000达10108 tokens/s和215 tokens/s,性能约4倍于Spark。
Llama 3.1 8B模型下,单请求预填充7991 tokens/s,批处理32时增至7949 tokens/s预填充和368 tokens/s生成,并行能力优秀。
统一内存支持直接运行Llama 3.1 70B模型(FP8量化),预填充803 tokens/s,生成2.7 tokens/s,本地调试大模型意义显著。
启用EAGLE3推测解码后,吞吐量提升达2倍,算法优化缓解带宽限制。
长时间高负载运行稳定,散热设计专业,无热降频。
Spark预装Docker等环境,降低本地模型运行门槛。
本地模型服务与推理
通过Docker命令快速启动推理服务,例如Llama 3.1 8B模型:
docker run --gpus all --shm-size 32g -p 30000:30000 -v ~/.cache/huggingface:/root/.cache/huggingface --env "HF_TOKEN=<你的 Hugging Face Token>" --ipc=host \lmsysorg/sglang:spark \python3 -m sglang.launch_server --model-path meta-llama/Llama-3.1-8B-Instruct --quantization fp8 --host 0.0.0.0 --port 30000
兼容OpenAI API,可通过REST交互。
轻松搭建离线API服务,数据私有、延迟可控。
本地对话体验
结合Open WebUI前端,实现浏览器本地聊天,零延迟、零泄露。
离线代码助手
集成GPT-OSS 20B模型与Zed编辑器,实现代码自动完成、智能重构,全程离线保障隐私。
安装Ollama后下载模型,Zed自动启用AI助手功能。
本地AI编程助手响应迅速,提升开发效率。
DGX Spark展望个人AI计算未来,将数据中心级硬件浓缩至优雅桌面设备。
虽原始算力不及大型服务器,但在可及性、能效比和多功能上独具优势。
它支持SGLang、Ollama等框架,探索推测解码与分布式推理,是开发者的AI乐园。
Spark旨在将AI实验室搬至桌面,助力开源模型运行、推理框架开发与私有助手打造,保持工程品质与设计美学。
这台精致机器,堪称个人AI超算时代的开路先锋。
参考资料:
https://www.theverge.com/news/798775/nvidia-spark-personal-ai-supercomputer
https://lmsys.org/blog/2025-10-13-nvidia-dgx-spark/
https://www.theverge.com/news/631957/nvidia-dgx-spark-station-grace-blackwell-ai-supercomputers-gtc
本文由主机测评网于2026-01-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260116089.html