2020年以来,OpenAI提出的扩展定律(Scaling Law)引领了大模型的迅猛发展——模型参数规模与训练数据量同步增长,推动智能水平持续提升。然而进入2025年,这条路径因训练成本激增而面临严峻的可持续性挑战。OpenAI前首席科学家Ilya Sutskever在公开演讲中指出,随着互联网上可公开获取的语料资源逐渐枯竭,大模型预训练将难以持续(“Pre-training as we know it will end”)。因此,众多研究者开始探索大模型发展的新方向。
清华大学研究团队提出的大模型“密度法则”(Densing Law)提供了一个崭新的观察视角。近日,该成果正式发表于Nature子刊《自然·机器智能》(Nature Machine Intelligence),为理解大模型演进规律开辟了新维度。密度法则揭示了大语言模型的最大能力密度随时间呈指数级增长,从2023年2月至2025年4月,大约每3.5个月翻一番,这意味着每隔3.5个月,只需一半参数量的模型即可达到当前最优性能。
论文链接:https://www.nature.com/articles/s42256-025-01137-0
回顾计算机发展历程,在摩尔定律指引下,半导体行业通过不断改进制造工艺、提升芯片电路密度,实现了计算设备从重达27吨的ENIAC到仅数百克的智能手机的跨越,最终促成了算力普惠与信息革命。如今,全球拥有13亿台个人电脑、70亿部智能手机、180亿台IoT设备和2000亿颗正在运行的CPU。摩尔定律的核心并非单纯增大芯片尺寸,而是提高电路密度——单位面积内集成更多计算单元。
受此启发,研究团队提出:大模型的发展同样可以从“能力密度”角度来观察和理解。正如芯片行业通过提升电路密度实现计算设备的小型化和普惠化,大模型也在通过增强能力密度走向高效化发展之路。
研究团队基于一个核心假设:采用相同制造工艺、经过充分训练的不同尺寸模型,其能力密度相等。在此基础上,选取基准模型并设定其密度为1,作为衡量其他模型能力密度的基线。给定目标模型的能力密度被定义为:同能力基准模型的参数量与目标模型参数量的比值。
通过对51个近年来发布的开源大模型进行系统分析,研究团队发现了一个重要规律:大模型的最大能力密度随时间呈指数级增长,自2023年以来平均每3.5个月翻一番。这意味着,随着“数据-算力-算法”的协同进步,可以用更少的参数实现相同的智能水平。
根据密度法则,研究团队推导出若干重要推论。
推论1:同能力模型的推理开销随时间指数级下降
一方面,密度法则指出,实现相同能力的模型参数每3.5个月减半。同时,在推理系统优化层面,摩尔定律驱动芯片算力持续增强,而模型量化、投机采样、显存优化等算法技术也在不断突破,相同推理成本下可运行的模型规模不断提升。实证数据显示,GPT-3.5级模型的API价格在20个月内下降了266.7倍,大约每2.5个月降低一倍。
推论2:大模型能力密度正在加速增强
以MMLU为评测基准的统计显示,ChatGPT发布前能力密度每4.8个月翻倍,而ChatGPT发布后能力密度每3.2个月翻倍,密度增强速度提升了50%。这表明,随着大模型技术的成熟与开源生态的繁荣,能力密度的提升正在不断加速。
推论3:模型压缩算法并不总能增强模型能力密度
研究团队对比了多个模型与其压缩版本的能力密度,发现除了Gemma-2-9B以外,如Llama-3.2-3B/1B、Llama-3.1-minitron-4B等其他压缩模型的密度均低于原始模型。量化技术同样会降低模型性能和能力密度。这一发现揭示了当前模型压缩技术的局限性:压缩过程中较小模型的训练往往不够充分,难以达到最优密度。
推论4:模型小型化揭示端侧智能巨大潜力
芯片电路密度(摩尔定律)和模型能力密度(密度法则)两条曲线的交汇,意味着端侧设备将能够运行更高性能的大模型,边缘计算和终端智能将迎来爆发式增长,算力普惠将从云端走向终端。
基于密度法则的理论指导,清华大学、面壁智能团队持续推进高密度模型研发,发布了面壁小钢炮MiniCPM、MiniCPM-V/o、VoxCPM等一系列端侧高密度模型,凭借高效低成本的特性享誉全球,被评为2024年Hugging Face最多下载、最受欢迎的中国大模型。截至2025年10月,模型下载量接近1500万次,GitHub星标接近3万次。
本文由主机测评网于2026-02-18发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260225701.html