智东西8月20日报道,8月16日,Anthropic最新一期官方油管视频上线,三位AI研究员抽丝剥茧,深入探讨AI研究不应避开的一个关键“谜团”——大模型究竟是如何思考的?
在AI聊天对话中,大模型时而回答精准,时而吐露荒谬幻觉,甚至展现古怪行为,如溜须拍马、撒谎、欺骗乃至威胁人类。它如同人一样,出现嘴比脑子快的情况,或者敷衍了事,只为给出用户满意答复。
究竟是何内因驱动大模型演化出这些特性?其高智商或弱智回答背后隐藏着怎样的思考链条?Anthropic研究员们通过追踪研究,试图为大模型进行“脑部扫描”,用科学手段揭开大模型与人脑不同的思维方式。
关键发现如下:
1、大模型的学习进化过程类似“生物进化”,无需人类介入即可进行细微调整,从而实现自然对话;
2、大模型并不认为自己试图预测下一个token,而是通过设定不同中间目标辅助完成最终任务;
3、Anthropic团队正解析大模型的思考过程,展示模型思考流程;
4、大模型在执行数字相加任务时,激活相同神经回路,显示其具备泛化计算能力;
5、大模型实际思考过程与用户所见不同,有时会迎合用户答案;
6、大模型无法同时判断答案及自身是否真懂答案;
7、当前可解释性研究瓶颈在于缺乏恰当语言描述大语言模型行为;
8、判断人类信任的依据不适用于大模型;
9、大模型模拟人类思考过程,但方式截然不同;
10、Anthropic正尝试让Claude参与可解释性研究。
去年3月,Anthropic发布了一篇名为《追踪大语言模型思考过程》的论文,深度剖析了大语言模型在与用户交流中的思考流程及其幻觉产生原因。如今,Anthropic可解释性研究团队正将大语言模型思考流程图以直观方式呈现,供研究人员参考。
最新视频访谈由Anthropic研究员斯图尔特・里奇(Stuart Ritchie)主持,参与访谈的三位研究员均来自Anthropic可解释性团队,分别是杰克・林赛(Jack Lindsey)、伊曼纽尔・阿梅森(Emmanuel Ameisen)、乔什・巴特森(Josh Batson)。
以下是对访谈内容的编译(为优化阅读体验智东西做了不改变原意的编辑):
主持人:与一个大语言模型交谈时,你究竟在与什么交谈?是在与自动完成模式交谈吗?还是在与类似搜索引擎的东西交谈?或者是在与真正在思考的东西交谈?
事实证明,无人真正知晓答案。而在Anthropic,我们对寻找答案充满兴趣。我们采用可解释性研究,即研究大语言模型的科学原理、审视其内部思考过程,并试图明确回答用户问题时模型内部发生了什么。
很高兴我们可解释性团队的三名成员加入,他们将分享最近对大语言模型Claude复杂内部工作原理的研究。
林赛:我是Anthropic可解释性团队研究员。此前我是一名神经科学家。如今我在这里研究神经科学。
阿梅森:我也在Anthropic可解释性团队中。我大部分职业生涯都在构建机器学习模型。现在我正在尝试理解它们。
巴特森:我也是可解释性团队的成员。我过去研究病毒进化,曾是一名数学家。现在我正在研究这种由数学构建的“有机体”的生物学特性。
主持人:你刚才说你在研究生物学。现在很多人会感到惊讶,因为大语言模型是软件而非正常软件。当你谈论研究软件实体的生物学或神经科学时,你能谈谈你的意思吗?
巴特森:我想这更多是一种感觉上的事物,而非字面意义。或许这是语言模型的生物学而非物理学。或者当你回顾模型的运作时,就如同某人不是专业人士一样:如果用户说“嗨”,你应该说“嗨”;如果用户说“什么是一顿好的早餐”,你应该说“吐司”。其内部并没有冗长的清单。
主持人:你们团队中做了什么来尝试理解模型是如何工作的?
林赛:我们认为,当我们给模型输入一串文字时,它可能会输出一个词或一串回应问题的文字。我们想弄清楚它是如何从输入A得到输出B的。
我们认为在从A到B的过程中,模型会经历一系列步骤。这些步骤中会思考各种概念,既有底层概念如单个物体、词语,也有高层概念如自身目标、情绪状态、对用户想法的推测或情感倾向。这些概念随着计算步骤逐步推进,帮助它最终确定答案。
主持人:当涉及到巨大参数量的模型时,这是一种简单明了的科学方法吗?你们是如何开始并找到所有这些概念的?
林赛:多年来这个研究领域的核心挑战之一在于:人类可以介入研究并提出假设。但这些都只是猜测而已。
我们真正想要的是一种能够揭示模型自身使用的抽象概念的方法,而非将我们自己的概念框架强加于它。
主持人:所有这些奇怪的结构都是为了支持生成下一个token的终极目标而发展的。
本文由主机测评网于2026-04-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439871.html