过去半个世纪,全球科技产业的投资与创新步伐,始终被一个规律所主导——摩尔定律,即芯片性能每18个月翻一番。然而,在摩尔定律之外,安迪-比尔定律揭示了硬件性能提升的红利迅速被软件复杂度的增加所抵消。
这种“硬件供给、软件消耗”的螺旋上升,驱动了PC与互联网时代的产业进化。如今,安迪与比尔虽已退出产业一线,但这一规律仍持续影响并因新的“安迪·比尔”而推向更高境界。
ChatGPT的爆发开启了生成式人工智能时代,在Scaling Law的主导下,模型参数膨胀,软件对算力的需求远超摩尔定律的供给速度,AI发展的边际成本急剧上升。当硬件供给遭遇能源、数据等瓶颈时,旧的“安迪-比尔”式增长范式开始失效。
产业亟需一场逆向革命。大模型作为AI时代的“软件”,需通过极致的算法与工程化重构,在现有硬件上发挥更强能力。2025年,中国大模型公司成为这一路径的坚定实践者。
从DeepSeek V3通过细粒度混合专家(MoE)架构以1/10算力成本对标顶尖模型,到Kimi等团队在稀疏注意力机制上的突破,中国大模型公司正用架构创新努力缩小算力差距。
清华大学计算机系副教授刘知远及其面壁智能团队是典型代表。他们发布的MiniCPM('小钢炮'系列模型),仅用约1/10的参数规模,即可承载对标云端大模型的智能水平,成为端侧高效AI的典范。
2025年11月,刘知远团队的研究登上全球顶级学术期刊《自然·机器智能》(Nature Machine Intelligence)封面,正式提出大模型的“密度法则”(Densing Law)。基于对51个主流大模型的严谨回测,论文揭示了惊人的非线性进化规律:从2023年到2025年,大模型的智能密度以每3.5个月翻倍的速度狂飙。
这是一条比摩尔定律陡峭5倍的进化曲线。这意味着每100天,就可以用一半参数量实现当前最优模型相当的性能。每100天成本减半,一年后成本就可能降至原来的十分之一。
如此快的迭代速度对技术创新、产业落地提出新挑战。刘知远在对话中直言:若大模型公司发布新模型后3到6个月无法收回成本,其商业模式将不可持续,因为后来者很快能以更少资源实现同等能力。
当研发迭代周期压缩至百天量级,人类智力供给逼近极限,产业必将发生质变。刘知远期待的AI时代生产力标志将是“用AI制造AI”。唯有如此,才能支撑这场超越摩尔定律的智能风暴。
腾讯科技:我们今天的主题是您和团队最新发表在《自然·机器智能》上的关于大模型“能力密度”(Densing Law)的论文。您能介绍一下这项研究的背景吗?
刘知远:尽管这篇论文是2025年发表的,但想法早在2024年上半年就已萌生。2023年初,ChatGPT的兴起引发全球对大模型的追逐。那时,我们思考大模型未来的发展路径。我们探讨如何用更低成本、更高质量实现模型能力。2024年初,Mini CPM系列模型验证了这一点:更少参数实现更强能力。我们寻找其背后的规律,促成了对“密度法则”的探索。
腾讯科技:这项研究是否因中国国情使我们更重视大模型的效率问题?它在国内外独一无二吗?
刘知远:追求效率有中国算力有限的国情因素。我们必须关注如何用更少算力实现更高质量模型。《经济学人》提到中国企业正通过技术创新绕过‘算力墙’。同时,追求效率也符合AI的发展规律。人工智能要普及,技术不能昂贵。因此,我们自信地认为密度法则对AI的未来发展具有重要意义。
腾讯科技:在‘密度法则’中,量化‘智能’是难题。研究开始前,您为何认为可行?
刘知远:我们并未真正解决‘如何度量智能总量’的难题。我们采取取巧方法:找参照物(Reference Model)。假设用同一技术方案训练的模型无论大小密度相同。将这套方案训练的模型作为Reference Model,其密度为1。通过比较目标模型达到某种智能水平时Reference Model所需的参数量,可算出目标模型的相对密度。当然,如何衡量智能总量是AI需要攻克的基础科学问题。
腾讯科技:您在2024年WAIC期间提到‘密度法则’周期是8个月,但最终论文结果是3.5个月。为何进化速度比预期快?
刘知远:研究初期数据不稳定且有限。我们观察到周期从五个月缩短到三个月半。具体周期并非最重要,关键是速度远超摩尔定律的18个月。每100天成本减半,一年后成本可能降至十分之一。
腾讯科技:刚才提到投入,‘规模法则’与‘密度法则’统一还是矛盾?
刘知远:它们是硬币两面。‘规模法则’通过增加参数提升能力,‘密度法则’通过技术创新用更少参数实现更多智能。两者相辅相成。‘规模法则’提供通用智能构造方案,‘密度法则’优化参数规模曲线。
腾讯科技:'规模法则'面临数据、算力和能源天花板。'密度法则'何时会遇瓶颈?
刘知远:'密度法则'是更可持续的'规模法则'方式。通过技术创新提高密度可在算力或成本不变的情况下提升模型能力。例如DeepSeek V3用1/10算力实现同等能力。
腾讯科技:今年有哪些让您惊艳的技术突破?
刘知远:今年模型架构创新丰富:细粒度混合专家(MoE)架构成熟;稀疏注意力机制有效处理长序列;复兴循环神经网络(RNN)降低计算复杂度。此外大规模强化学习应用飞跃解决数据枯竭问题。
本文由主机测评网于2026-06-01发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260646963.html