当前位置：首页 > 科技资讯 > 正文

大模型“密度法则”：能力密度与推理开销的变革

主机测评网
科技资讯
2026-05-12
871

自2020年以来，OpenAI提出的Scaling Law引领了大模型快速发展的浪潮——模型参数与训练数据规模越大，产生的智能能力越强。然而，进入2025年后，这一路径因训练开销的无限扩张而面临严峻挑战。OpenAI前首席科学家Ilya Sutskever在公开演讲中指出，随着互联网公开可获取的语料逐渐枯竭，大模型预训练将难以为继（"Pre-training as we know it will end")。因此，研究者们开始探索大模型的新发展路径。

清华大学的研究成果——大模型“密度法则”(Densing Law)为理解大模型发展规律提供了新的视角。该成果近期发表在Nature子刊《自然·机器智能》(Nature Machine Intelligence)上，揭示了最大能力密度随时间呈指数级增长的现象。从2023年2月至2025年4月，大语言模型的能力密度每约3.5个月翻一倍，意味着每隔3.5个月，即可用一半的参数量实现当前最优性能。

大模型“密度法则”：能力密度与推理开销的变革大模型密度法则能力密度推理开销第1张

论文链接：点击这里查看

受“摩尔定律”启发的“密度法则”

回顾计算机发展史，摩尔定律指引半导体行业不断改进制造工艺、提升芯片电路密度，实现了从27吨重的ENIAC到数百克智能手机的飞跃，推动了算力普惠和信息革命。如今，全球拥有13亿台个人电脑、70亿部智能手机、180亿台IoT设备和2000亿颗运行的CPU。摩尔定律的核心并非增大芯片尺寸，而是提升电路密度——在单位面积内容纳更多计算单元。

受此启发，研究团队提出：大模型的发展同样可以从“能力密度”的角度来观察和理解。与芯片行业通过提升电路密度实现计算设备小型化和普惠化类似，大模型也在通过提升能力密度实现高效化发展。

大模型密度法则：能力密度随时间呈指数上升趋势

研究团队基于一个核心假设：采用相同制造工艺、充分训练的不同尺寸模型，其能力密度相同。在此基础上，研究团队选取基准模型并设定其密度为1，作为衡量其他模型能力密度的基线。目标模型的能力密度定义为：同能力的基准模型参数量与目标模型参数量的比值。

大模型“密度法则”：能力密度与推理开销的变革大模型密度法则能力密度推理开销第2张

通过对近年来发布的51个开源大模型进行系统分析，研究团队发现了一个重要规律：大模型的最大能力密度随时间呈指数级增长，自2023年以来平均每3.5个月翻一倍。这意味着随着「数据 - 算力 - 算法」的协同发展，可以用更少的参数实现相同的智能水平。

大模型“密度法则”：能力密度与推理开销的变革大模型密度法则能力密度推理开销第3张

根据密度定律，研究团队得出了若干重要推论。

推论 1：同能力模型的推理开销随时间指数级下降

一方面，密度法则指出同能力的大模型参数每3.5个月减半。同时，在推理系统优化方面，摩尔定律驱动芯片算力持续增强，而模型量化、投机采样、显存优化等算法技术也在不断突破。实证数据显示，GPT-3.5级模型API价格在20个月内下降了266.7倍，约每2.5个月下降一倍。

大模型“密度法则”：能力密度与推理开销的变革大模型密度法则能力密度推理开销第4张

推论 2：大模型能力密度正在加速增强

以MMLU为评测基准的统计显示，ChatGPT发布前能力密度每4.8个月翻倍，而ChatGPT发布后能力密度每3.2个月翻倍，密度增强速度提升了50%。这表明随着大模型技术的成熟和开源生态的繁荣，能力密度提升正在加速。

大模型“密度法则”：能力密度与推理开销的变革大模型密度法则能力密度推理开销第5张

推论 3：模型压缩算法并不总能增强模型能力密度

研究团队对比了多个模型与其压缩版本的能力密度，发现除了Gemma-2-9B以外，如Llama-3.2-3B/1B、Llama-3.1-minitron-4B等其他压缩模型的密度都低于原始模型。量化技术同样会降低模型性能和能力密度。这一发现揭示了当前模型压缩技术的局限性：压缩过程中较小模型的训练往往不够充分，无法达到最优密度。

大模型“密度法则”：能力密度与推理开销的变革大模型密度法则能力密度推理开销第6张

推论 4：模型小型化揭示端侧智能巨大潜力

芯片电路密度（摩尔定律）和模型能力密度（密度法则）两条曲线的交汇意味着端侧设备将能够运行更高性能的大模型，边缘计算和终端智能将迎来爆发式增长，算力普惠将从云端走向终端。

大模型“密度法则”：能力密度与推理开销的变革大模型密度法则能力密度推理开销第7张

基于密度法则的理论指导，清华大学与面壁智能团队持续推进高密度模型研发，发布了面壁小钢炮MiniCPM、MiniCPM-V/o、VoxCPM等一系列端侧高密度模型。凭借高效低成本的特性享誉全球，被评为2024年Hugging Face最多下载、最受欢迎的中国大模型。截至2025年10月，模型下载量接近1500万次，GitHub星标接近3万次。