【研究摘要】香港大学、香港科技大学与西安电子科技大学的联合团队在Nature子刊发表重大突破,成功解决存算一体AI芯片中模数转换器(ADC)能耗过高的核心难题。通过利用忆阻器的可编程特性,团队开发出能自适应数据分布的智能ADC架构,使AI芯片功耗降低57.2%,面积减少30.7%,为下一代高效AI硬件系统开辟新路径。
在人工智能算力需求呈指数级增长的今天,为突破算力瓶颈,“存算一体”(CIM)架构被视为AI推理芯片的未来方向。
该架构利用物理定律直接进行计算,相比GPU具有显著能效优势,但关键组件模数转换器(ADC)的能耗问题严重制约了其发展。
在先进存算一体芯片中,ADC消耗了高达87.8%的能耗和75.2%的面积,极大压制了存算一体AI芯片本应有的巨大潜力。
近日,由香港大学、香港科技大学与西安电子科技大学的刘正午、张薇、李灿、黄毅领导的联合研究团队成功攻克这一难题,论文第一作者洪海桥在国际上首次提出基于忆阻器的硬件原生自适应ADC架构。
该设计创新性地利用忆阻器的可编程特性,让ADC这把“标尺”变得智能且高效,将存算一体芯片中ADC模块的能耗开销锐减57.2%,面积降低30.7%,为下一代高效AI硬件系统铺平道路。
要理解这项突破的意义,首先需明白AI芯片为何“渴求”存算一体架构。
在传统的冯·诺依曼架构中,计算单元与存储单元分离,AI进行计算时需要消耗巨量能量和时间在两个单元间搬运数据,形成“冯·诺依曼瓶颈”,导致AI计算中心能耗高昂且难以在终端部署。
“存算一体”架构因此应运而生。
该架构在存储器内部直接进行计算,近乎彻底消除数据搬运。其中,模拟域存算一体利用忆阻器等新型器件阵列,通过物理定律瞬间完成AI核心的矩阵乘加运算,能效极高。
但问题随之而来:计算在模拟世界连续的电压或电流中完成,而后续处理单元工作在数字世界,连接这两个世界的模数转换器成为新瓶颈。
这个“翻译官”工作效率极低。根据论文数据,在一些先进存算一体芯片中,ADC的能耗占比高达87.8%,面积占比达75.2%,几乎压制了存算一体本应具备的能效优势,成为阻碍AI芯片落地的关键技术难点。
硬件笨重:传统ADC需要一个“标尺”来测量模拟电压,这把标尺通常由大量电容器或电阻器阵列构成,精度越高阵列越庞大,能耗和面积激增。
标尺僵化:更糟糕的是,这把标尺固定且均匀,但AI模型中不同网络层的计算结果分布非均匀,有的数据集中中间,有的多峰或偏向两端。用均匀标尺测量分布不均数据,造成巨大精度损失。
(a) 存算一体阵列中不同层数据分布各不相同;(b) CIM系统流程;(c) ADC在CIM系统中占据绝大多数能耗和面积。为弥补损失,设计师被迫使用更高精度ADC,导致硬件开销和延迟进一步恶化,陷入死循环。
面对这一困局,联合团队提出颠覆性方案:直接用忆阻器打造这把“标尺”。
忆阻器是一种神奇的可编程非易失器件,其电阻值可通过施加电压连续调控,并在断电后仍能“记住”电阻值。
研究团队基于忆阻器设计新型“量化单元”,替代传统ADC中庞大的电阻/电容阵列,这把新标尺核心优势在于完全可编程,且具备低能耗和紧凑面积。
(a) 论文提出的基于忆阻器的Q-cell核心电路;(c, d) 多个Q-cell和一个解码器共同构成完整ADC。
通过改变Q-cell中忆阻器的电阻,研究人员可随心所欲设定标尺上每一个刻度位置,带来两大革命性优势:
硬件原生自适应:标尺不再僵化。团队利用Lloyd-Max算法分析AI模型中每一层数据分布,反推出最优刻度方案,再通过编程忆阻器在硬件上复现定制标尺,完美贴合数据分布,极大降低量化误差,提高存算一体芯片推理精度。
极致的硬件效率:忆阻器本身是纳米级存储器件,用它构建ADC,能耗和面积相比传统方案实现数量级降低。
团队将忆阻器ADC与ISSCC/VLSI等顶会发表的先进ADC设计进行全方位对比。结果显示,在5-bit精度下,忆阻器ADC能效提升15.1倍,面积缩小12.9倍。
(a) 忆阻器ADC与SOTA ADC在能效-面积图上对比;(b) 忆阻器ADC能耗与面积构成分析。
当把高效忆阻器ADC集成回存算一体AI芯片时,系统级优势立刻显现。
以VGG8网络为例,ADC模块在系统总能耗中占比从79.8%锐减至22.5%;总面积占比从47.6%压缩至16.9%,整个存算一体芯片功耗净降57.2%,面积净降30.7%。
这意味着ADC最大“能耗黑洞”被攻克,存算一体芯片终于释放其应有的超高能效潜力。
系统级能耗与面积对比。集成忆阻器ADC后,ADC开销被极大压缩,系统总能耗和总面积显著降低。
模拟器件天然存在“器件差异性”,即便同一批生产的两个器件,特性也不可能完全相同,在写入读取时还会有波动或误差。这通常被视为硬件缺陷,导致精度下降。
在复杂ResNet18网络测试中,团队观察到器件差异导致ADC标尺轻微错位,网络准确率下降。
但团队独创“超分辨率”策略,巧妙将缺陷转化为优势。
方法:同时使用两个忆阻器ADC量化同一信号。由于器件差异,两把标尺刻度些许错位,当一个输入电压落在刻度边缘时,两个ADC可能给出不同数字。
团队利用这种“分歧”反向推断——信号真实值恰好处在边界上,通过不同于求平均值的方式,凭空创造更精细刻度,实现超越单个ADC的“超分辨率”。
结果令人振奋:使用该策略后,ResNet18推理准确率不仅完全恢复,在4-bit等配置下反超没有器件差异的理想软件基准!这一“变缺陷为特性”思路,为解决模拟计算硬件缺陷提供全新视角。
自适应量化与超分辨率策略性能。(a, b) 自适应量化相比均匀量化更好拟合数据分布,均方误差从14.99降至3.10;(c, e) 在VGG8和ResNet18网络上,自适应量化均大幅优于均匀量化;(d, f) 独创超分辨率策略成功克服器件差异带来精度下降。
为确保研究可靠性,团队不仅停留在仿真,实际制造8×8忆阻器阵列并进行全面实验表征。
实验证明,器件具有高度一致可编程性和稳定性,并能承受超过3000万次编程-擦除循环,为忆阻器ADC可靠性提供坚实硬件基础。
此外,团队基于28nm工艺完成5-bit ADC完整版图设计,验证其在先进工艺下面积优势。
(a) 实际制造8x8忆阻器阵列显微图像;(b) 器件多级电导调控;(c) 阵列上64个器件编程一致性统计;(d) 多个电导状态读取稳定性。
这项工作直面模拟存算一体落地中最关键ADC瓶颈,通过将忆阻器可编程性与ADC功能需求创新结合,打造出高效、智能、自适应硬件原生ADC。
不仅在器件层面实现能效和面积数量级增益,更在系统层面攻克ADC能耗黑洞,同时巧妙将硬件缺陷转化为性能优势。
这项研究为下一代高效、精准AI硬件系统研发提出新技术路径,有望加速存算一体芯片产业化进程。
参考资料:
https://www.nature.com/articles/s41467-025-65233-w
本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120291.html