自2020年以来,OpenAI提出的Scaling Law引领了大模型快速发展的浪潮——模型参数与训练数据规模越大,产生的智能能力越强。然而,进入2025年后,这一路径因训练开销的无限扩张而面临严峻挑战。OpenAI前首席科学家Ilya Sutskever在公开演讲中指出,随着互联网公开可获取的语料逐渐枯竭,大模型预训练将难以为继("Pre-training as we know it will end")。因此,研究者们开始探索大模型的新发展路径。
清华大学的研究成果——大模型“密度法则”(Densing Law)为理解大模型发展规律提供了新的视角。该成果近期发表在Nature子刊《自然·机器智能》(Nature Machine Intelligence)上,揭示了最大能力密度随时间呈指数级增长的现象。从2023年2月至2025年4月,大语言模型的能力密度每约3.5个月翻一倍,意味着每隔3.5个月,即可用一半的参数量实现当前最优性能。
论文链接:点击这里查看
回顾计算机发展史,摩尔定律指引半导体行业不断改进制造工艺、提升芯片电路密度,实现了从27吨重的ENIAC到数百克智能手机的飞跃,推动了算力普惠和信息革命。如今,全球拥有13亿台个人电脑、70亿部智能手机、180亿台IoT设备和2000亿颗运行的CPU。摩尔定律的核心并非增大芯片尺寸,而是提升电路密度——在单位面积内容纳更多计算单元。
受此启发,研究团队提出:大模型的发展同样可以从“能力密度”的角度来观察和理解。与芯片行业通过提升电路密度实现计算设备小型化和普惠化类似,大模型也在通过提升能力密度实现高效化发展。
研究团队基于一个核心假设:采用相同制造工艺、充分训练的不同尺寸模型,其能力密度相同。在此基础上,研究团队选取基准模型并设定其密度为1,作为衡量其他模型能力密度的基线。目标模型的能力密度定义为:同能力的基准模型参数量与目标模型参数量的比值。
通过对近年来发布的51个开源大模型进行系统分析,研究团队发现了一个重要规律:大模型的最大能力密度随时间呈指数级增长,自2023年以来平均每3.5个月翻一倍。这意味着随着「数据 - 算力 - 算法」的协同发展,可以用更少的参数实现相同的智能水平。
根据密度定律,研究团队得出了若干重要推论。
推论 1:同能力模型的推理开销随时间指数级下降
一方面,密度法则指出同能力的大模型参数每3.5个月减半。同时,在推理系统优化方面,摩尔定律驱动芯片算力持续增强,而模型量化、投机采样、显存优化等算法技术也在不断突破。实证数据显示,GPT-3.5级模型API价格在20个月内下降了266.7倍,约每2.5个月下降一倍。
推论 2:大模型能力密度正在加速增强
以MMLU为评测基准的统计显示,ChatGPT发布前能力密度每4.8个月翻倍,而ChatGPT发布后能力密度每3.2个月翻倍,密度增强速度提升了50%。这表明随着大模型技术的成熟和开源生态的繁荣,能力密度提升正在加速。
推论 3:模型压缩算法并不总能增强模型能力密度
研究团队对比了多个模型与其压缩版本的能力密度,发现除了Gemma-2-9B以外,如Llama-3.2-3B/1B、Llama-3.1-minitron-4B等其他压缩模型的密度都低于原始模型。量化技术同样会降低模型性能和能力密度。这一发现揭示了当前模型压缩技术的局限性:压缩过程中较小模型的训练往往不够充分,无法达到最优密度。
推论 4:模型小型化揭示端侧智能巨大潜力
芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线的交汇意味着端侧设备将能够运行更高性能的大模型,边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端。
基于密度法则的理论指导,清华大学与面壁智能团队持续推进高密度模型研发,发布了面壁小钢炮MiniCPM、MiniCPM-V/o、VoxCPM等一系列端侧高密度模型。凭借高效低成本的特性享誉全球,被评为2024年Hugging Face最多下载、最受欢迎的中国大模型。截至2025年10月,模型下载量接近1500万次,GitHub星标接近3万次。
本文由主机测评网于2026-05-12发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260544817.html