Anthropic 联合创始人 Jared Kaplan 是一名理论物理学家,他的研究兴趣广泛,涉及有效场论、粒子物理、宇宙学、散射振幅以及共形场论等。过去几年,他还与物理学家、计算机科学家们合作开展机器学习研究,包括神经模型以及 GPT-3 语言模型的 Scaling Law。近期,Jared 在 YC 分享了他对 Scaling Law 未来如何影响大模型发展,以及对 Claude 等模型的意义。
Jared 认为,AI 的大部分价值可能还是来自最强模型。他提到目前 AI 的发展非常不平衡,尽管 AI 在快速进步、事情在迅速变化,但模型能力尚未完全解锁。他期待一个平衡状态,即 AI 发展速度变慢且成本极低。然而,AI 的快速进化使得人们更关注能力而非成本。
他鼓励大家去构建那些“现在还没法完全跑通”的产品,用 AI 更好地“集成” AI,并快速找到 AI 大规模应用的突破口。这些思考背后,与 Anthropic 的运营策略相符。
我们翻译并整理了 Jared Kaplan 的分享和他与主持人 Diana 的对话,以飨读者。
其实我做 AI 的时间并不长,大概才六年。在那之前,我的大部分职业生涯都在学术界,是一名理论物理学家。我转行做 AI,是因为对理解宇宙本身特别感兴趣,比如事物是如何运作的、我们周围所见的各种现象背后有哪些宏观规律?宇宙从何而来,是决定论吗?人有没有自由意志?我对这些问题都非常着迷。
幸运的是,从事物理研究期间,我认识了很多非常聪明、有深度的人,其中包括现在我在 Anthropic 共事的一些创始人。我对他们做的事情非常感兴趣,因此也关注着。
与此同时,我也换了很多物理学的研究方向,从大型强子对撞机的高能粒子物理,到宇宙学、弦理论等等。但渐渐觉得进展太慢,有些沮丧。而身边很多朋友都跟我说“AI 正在变得非常重要”。起初我是不信的,觉得 AI 已经搞了五十年了,支持向量机(SVM)那类东西其实也没那么有趣。不过后来我被说服了,觉得 AI 也许真的是一个值得投入的领域。
接下来,我想简单介绍一下当代 AI 模型是怎么运作的,以及为什么“Scaling Law”能让它们不断变得更好。
像 Claude、ChatGPT 这样的 AI 模型训练过程可以分为两个主要阶段:第一个阶段是预训练(pre-training),训练模型模仿人类写的文本并理解其中的统计关联;第二个阶段是强化学习(reinforcement learning),收集用户反馈数据去优化模型。
这两个阶段都有非常清晰的“Scaling Law”。研究发现只要扩大预训练的规模,模型性能就会持续变好。这源于 Jared 当初问了一个“非常蠢”的问题:到底多大才叫大?数据到底有多重要?帮助到底有多大?
后来,他们发现了一个非常精确又令人惊讶的现象:AI 训练背后确实存在类似于物理或天文中的“规律性趋势”。这让他们对 AI 的持续进步充满信心。
另一个关键点其实是强化学习阶段也存在 Scaling Law。有个研究员研究 AlphaGo 的 Scaling Law 时发现:无论是预训练阶段还是在强化学习阶段,只要加大计算资源的投入,模型性能就会持续提升。
这样的 Scaling 正在解锁哪些能力呢?Jared 习惯用两个维度来理解 AI 的能力:第一个维度是 AI 的“适应性”,即它能多大程度地“贴近”我们的使用场景;第二个维度是 AI 可以完成的任务时长。
随着 AI 能力的提升,任务时长在不断拉长。AI 模型可以处理的任务时长大约每 7 个月翻一倍。这意味着 AI 的智能随着预训练和 RL 阶段算力的不断扩大,在可预见的方向上变得越来越“能干”,可以处理的任务时间跨度也越来越长。
如果 Scaling 趋势真的能带我们走得这么远,那接下来还缺什么?Jared 认为剩下的部分其实并不复杂:一是具备真实的“组织知识”;二是需要“记忆”;三是监督能力。
Jared 还建议大家去构建那些“现在还没法完全跑通”的产品;用 AI 来帮助我们更好地“集成” AI;快速找到 AI 大规模应用的突破口。
主持人:刚才的演讲很精彩。Anthropic 也发布了 Claude 4,现在已经可以使用了。很好奇在接下来的 12 个月里随着模型能力持续叠加会带来哪些新的可能?
Jared Kaplan:如果 12 个月内没有比 Claude 4 更强的模型出来,那我们就麻烦了。Claude 4 主要提升了它作为“智能体”的表现尤其在编程任务上。此外还加强了它的记忆能力和对“监督”信号的理解能力。
主持人:未来的 AI 模型会处理越来越复杂的任务。你觉得这会如何影响在座各位想要开发的东西呢?
Jared Kaplan:有很多可能。我觉得这取决于你对“表现成功”的接受度。未来我们会看到越来越多 AI 可以完全自动化的任务。
主持人:你本身是物理学出身,也是最早发现“Scaling Law”的人之一。这种思维方式对你在 AI 研究中有什么帮助?
Jared Kaplan:物理研究让我去寻找最大的图景、最宏观的趋势。这种“较真”带来了巨大的价值。因为只有在把趋势弄得足够精确时才能真的理解“怎么做才能突破”。
本文由主机测评网于2026-04-19发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260438618.html