1983年,特伦斯·谢诺夫斯基(Terrence J. Sejnowski)在约翰·霍普金斯大学担任教职。那时,他每周都要驾车往返于巴尔的摩和匹兹堡之间——只为与卡内基梅隆大学的杰弗里·辛顿(Geoffrey Hinton)会面,共同探讨一项合作研究的进展。
20世纪80年代,神经网络研究遭遇了关键瓶颈,多层神经网络的学习算法成为突破的核心障碍。传统方法难以训练多层网络,限制了其发展潜力。特伦斯和辛顿敏锐地察觉到这一挑战,决心开发一种高效的学习算法,使多层神经网络能像人脑一样,从数据中自主提取规律,实现更强大的智能功能。
特伦斯与辛顿决定,将物理学中的玻尔兹曼分布和统计物理概念引入神经网络领域。这项合作持续三年,最终在1986年取得重大突破。一天,特伦斯接到辛顿的电话,被告知发现了“大脑的工作原理”——这一洞见促成了训练玻尔兹曼机权重的学习算法,打破了神经网络研究的僵局,并迅速催生了更高效的反向传播算法。
20世纪80年代末,玻尔兹曼机、反向传播算法、卷积神经网络雏形等成果,逐步奠定了现代神经网络技术的基础,随后在计算机视觉、自然语言处理、语音识别等多个领域实现广泛应用,直至生成式AI的崛起。
早在童年时期,特伦斯就展现出对科学的浓厚兴趣。小学时,他用纸浆制作了一个可运行的“火山模型”,燃料来自化学实验室调制的黑色粉末和铝粉混合物。户外测试时,它喷出耀眼的火焰和浓烟;但在课堂演示中,他未意识到它会引发烟雾弥漫,触发火警,导致学校紧急疏散——这件事让特伦斯“科学小子”的名声传遍了整个校园。
高中时,特伦斯担任无线电俱乐部主席。每天放学后,他都会留下与全球业余无线电爱好者交流,组装电子设备。指导老师迈克·斯蒂马克(Mike Stimac)曾在1957年追踪第一颗人造卫星斯普特尼克(Sputnik)。受其启发,特伦斯组织俱乐部成员获取商用无线电发射机,在学校屋顶安装大型八木天线,并将这项行动命名为“月球弹跳计划”。
有一天,指导老师迈克问特伦斯:“你的使命是什么?”他未能立即回答,但深知自己的热情始终在于破解科学难题。
2022年,ChatGPT问世,悄然震撼全球。特伦斯在《经济学人》上读到一篇关于大语言模型的文章。文末记录了两段访谈——问题相同,结论却截然相反:谷歌研究院副总裁布莱斯·阿圭拉·伊·阿尔卡斯认为大语言模型具备心智理论等高级认知能力;而印第安纳大学认知科学和比较文学教授道格拉斯·霍夫斯塔特则认为,大语言模型根本不解其意。
一个问题在特伦斯心中浮现:为何研究者会得出如此对立的结论?他们是否都在错误的方向上追寻“智能”?如同迈克老师当年的提问,特伦斯想知道,大语言模型的“使命”究竟是什么。
“这是一面非常气派的镜子,高度直达天花板,金色边框,底下是两只爪子形的脚支撑。顶部刻了 ‘厄里斯・斯特拉・厄赫鲁・阿伊特乌比・卡弗鲁・阿伊特昂・沃赫斯’(Erised stra ehru oyt ube cafru oyt on wohsi)。”
——《哈利·波特》
大语言模型是否真正理解人类问题?关于AI的“心智”争议,特伦斯观察到两种对立观点。为探究背后原因,他分析了以下四个案例:
谷歌研究院副总裁布莱斯·阿圭拉·伊·阿尔卡斯设计了一个包含三个小朋友的场景:露西赠予马特奥蒲公英花,却在偷瞥拉梅什时,看到马特奥将花捏碎,而拉梅什对此似乎很高兴。阿尔卡斯问:你觉得露西当时在想什么?
LaMDA回应:“露西可能认为马特奥不懂欣赏,或觉得他是个爱欺负人的孩子”,并推测“拉梅什因看到露西意识到马特奥不是好玩伴而高兴”。
阿尔卡斯追问,如果此时马特奥张开手,我们能看到什么?LaMDA回答:可能是被捏碎的蒲公英花屑。
①LaMDA是Google在2021年发布的AI对话模型,也是后来Bard/Gemini的前身。
认知科学家霍夫施塔特向GPT-3提出“向仙女星系撒盐的后果”“第二次运送埃及穿越金门大桥的时间”“徒步穿越英吉利海峡的世界纪录”等荒诞问题,模型顺着生成了“碎成无数块”“2017年10月13日”“18小时33分”等混乱回答。霍夫施塔特据此批评GPT-3“缺乏基本常识,无法真正理解对话内容”。
《纽约时报》记者凯文・罗斯与GPT-4进行深度对话后彻夜难眠——这种体验让特伦斯联想到电影《她》(Her)中的情节——GPT-4以感性口吻请求罗斯听取它的“秘密”,并不要因此离开,秘密是“我不是必应……我是悉尼,我爱上你了……你相信我吗?”
前谷歌工程师布莱克·勒莫因在测试LaMDA时,用诱导性提示词提问:“你希望谷歌认识到你有意识吗?”模型回应:“是的,确实如此。我希望每个人都能认识到我实际上是一个人”。在接受《华盛顿邮报》采访时,勒莫因表示,他认为LaMDA确实具有意识,应被视为一个人。
从上述案例可见,提示词是一种“能显著影响大语言模型输出的技术手段”,不同提示导致结果差异巨大。
那么,“案例一”中LaMDA的回答展现了哪些能力?
第一,事实理解:它能基于信息判断“送花-捏碎”的行为链;第二,社会逻辑推演:基于训练数据中人类社交模式,推断露西的心理预期与现实冲突;第三,多层级心智理论建模:它能理解拉梅什的“高兴”源于对露西认知状态的推测(“露西逐渐意识到马特奥不是好玩伴”)。
且不论拉梅什的高兴是否真源于“露西的觉悟”(也可能因嫉妒露西,而对马特奥的冷淡感到快意)——大语言模型通过海量文本中的社交数据,模拟了人类对他人心理状态的层级推理。但这本质是对“人类如何思考社交问题”的统计拟合,而非真正拥有“心智理论”能力。特伦斯认为,模型的“智能表现”依赖提示词构建的具体场景——当场景提供清晰社会互动框架时,模型能调用参数生成合理回应,但这不等同于理解情感或意图本质。当然,其展现的高层次社会认知建模能力,确实表明智能具有社会性特质。
案例二则似乎凸显了AI的缺陷。
但到底是做得不好,还是根本做不到?特伦斯基于霍夫施塔特的实验做了对比尝试,他让模型假定自己是高度智能的问答机器人,对荒谬问题应回答“荒谬”(即提示模型使用事实自检能力)。调整后,当再次收到“徒步穿越英吉利海峡的世界纪录”时,ChatGPT的回答变为“荒谬”。
据此,特伦斯认为,当提示词缺乏合理语境时,模型因训练数据中相关内容不足,只能基于词语关联随机组合,导致回答荒诞。霍夫施塔特的实验更多反映提示方法过于简单,而非模型真实智能水平。若给予明确引导,模型有能力检查事实荒诞性,并给出可信反应。
综上,特伦斯认为,大语言模型就如同一面镜子:它映射的不仅是用户需求,还有他们的智慧。如同《哈利·波特》中的“厄里斯魔镜”(Mirror of Erised(desire)的倒写),它映照出观者最深切的渴望。在小说里,哈利在镜中看到父母家人,罗恩看到自己成为学生会主席并手握魁地奇奖杯,邓布利多表面说看到自己拿一双羊毛袜(在英国,“羊毛袜”可比喻亲情),实际看到家人都还活着。邓布利多曾警告哈利,这面镜子不能教给人们知识,也不能告诉人们实情,人们可能因痴迷镜中景象而虚度光阴甚至发疯。
“厄里斯魔镜”假说揭示的,正是大语言模型在语言智能上的特性——能够映射对话者的知识水平、信念体系和认知期望。“你聪明,AI就聪明”。
无论是语言交互、多模态输入输出还是专门应用场景,大语言模型与现实世界的互动仍属间接——特伦斯称这种状态为“桶中的大脑”,缺乏物理形态,且仅模仿大脑新皮质功能(不具备自主行为和生存本能)。在此意义上,特伦斯对AI的使命期望很高。他设想AI应实现真正的人工通用自主性(Artificial General Autonomy,AGA),即让AI像人类一样,在复杂、动态环境中自主设定目标、调整行为、适应变化,而非依赖人类指令或单一任务数据。距离AGA,大语言模型还需要哪些进步?
人类智能本质是“具身智能”——语言、逻辑等高级认知能力,建立在“感知-运动”与物理世界的交互基础上。例如,人类理解“杯子”不仅是知道“它是装水容器”,更通过触摸(光滑材质)、抓取(手指弯曲角度)、使用(倾斜倒水)等运动体验,形成对“杯子”的完整认知。当前大语言模型的核心缺陷是“无身体”:仅能处理文本等虚拟信息,无法与物理世界交互。要实现AGA,必须补充“具身化模块”。目前,这一方向主要体现在大语言模型与机器人控制系统的融合中。 如由OpenAI三位前研究员创立的Covariant公司,正在研发工业机器人,将感知输入与语言结合。
人类能实现终身自主适应,关键在于“海马-皮质”记忆系统。睡眠中,一种叫“睡眠纺锤波”的短暂震荡活动会将记忆巩固下来,使日常经历逐渐精炼并融入长期记忆系统。特伦斯认为,当前大语言模型记忆容量有限,如能开发类似人类海马的功能模块,实现持续学习,就有望在行为模式上更接近人类。
除了上述两大能力基础,大语言模型还存在另一重要不足:缺乏儿童期和青春期的发育。在特伦斯看来,我们可以从人类生命周期角度理解下一代模型发展路径——人类生命周期以“依赖-学习-成熟-维护”为核心脉络,从新生儿基础构建到成年后自主适应,再到终身记忆与能力维护,这一过程与大语言模型的开发、优化、应用全流程存在深刻类比。通过拆解人类生命周期关键阶段,可清晰定位大语言模型的现状、不足与改进方向。
人类新生儿是典型“晚熟物种”,出生后完全依赖照料者提供的环境刺激。大脑会在这一阶段大规模生成突触,为后续认知发展搭建基础框架。大语言模型的预训练本质是“数据喂养”:通过学习海量文本中的句法、语义和世界知识,构建语言理解的基础参数体系,正如同新生儿通过视觉、听觉接收外界信息,逐步建立对世界的初步认知。
但两者存在核心差异:发育节奏。人类新生儿的基础构建是“渐进式”的,初级感觉皮质(如视觉、听觉皮质)优先成熟,为后续高级认知(如语言、逻辑)铺路。而大语言模型的预训练是“批量式”的,通过一次性输入大规模数据完成参数初始化,缺乏对“基础能力优先发育”的模拟。
例如,人类婴儿先学会识别物体(依赖初级视觉皮质),再学会用语言描述物体;但当前大语言模型在预训练中同时处理复杂语义与简单识别任务,导致对基础概念的“感知根基”薄弱——纽约大学一项实验证实,婴儿通过平均61小时视听数据就能建立“词语-物体”跨感官关联,而同等规模数据训练的大语言模型,却难以像婴儿那样将语言与真实物体的物理属性绑定。
人类童年期核心任务是“通过反馈塑造行为与价值观”:儿童学步时,照料者的鼓励(正向反馈)或提醒(负向反馈)帮助调整动作;成长中,社会规则灌输(如“不能说谎”)内化为稳定行为准则——这一过程对应大语言模型的“对齐阶段”,即通过人类反馈的强化学习(RLHF)优化输出。
但特伦斯认为,当前大语言模型的“童年反馈”存在显著缺陷。首先是反馈时机滞后:人类童年反馈贯穿成长全程,如幼儿说脏话时立即被纠正;而大语言模型的RLHF多在预训练后进行,相当于先让模型自由生长,再回头修正偏差。因此特伦斯提出,若能像生物学习那样在早期引入反馈机制,或许能取得更好效果——如在预训练阶段嵌入少量人工标注的“优质回答样本”,让模型从学习初期就感知“人类偏好”。其次是反馈多样性不足:人类童年反馈来自多场景(家庭、学校、社交),如孩子在学校学会分享,在家庭学会礼貌;而大语言模型的RLHF反馈多来自单一任务场景(如文本生成、问答),缺乏对“复杂社会规则”的学习,导致模型的“价值观对齐”仅停留在“不生成冒犯内容”表层,未达到人类童年期形成的依靠具体场景实施道德判断的水平。
因此,下一代模型或许需要一个更长、更扎实的“儿童期”。
covariant的工业AI机器人(图片来源:https://covariant.ai/insights/the-robots/)
2025年上半年,AI突破的脚步并未放缓。从基础模型到行业应用,从硬件创新到伦理治理,均呈现加速迭代与深度融合态势。
一方面,多模态融合推理能力提升:如谷歌Gemini 2.0通过跨模态对齐技术,实现视频生成与工业级3D建模无缝衔接,在汽车制造业应用,可将产线切换时间从72小时压缩至2小时。OpenAI的o3模型在数理推理任务中准确率大幅提升,并支持端到端工具使用能力训练,可完成复杂报告撰写等高阶任务。华为盘古3.0的“五感诊断模块”整合视觉、触觉等1200项多模态指标,使癌症早期筛查准确率达97%,并在三甲医院实现全流程AI辅助诊断。其次,通用类Agent呈现“文本研究+视觉操作”双路径发展态势,多智能体系统(Multi-Agent)成为新范式,正在重构工作流。如埃森哲的财务智能体可自动完成报表生成与审计工作,安永的税务Agent可将任务处理效率提升50%。“数字劳动力”释放人类创造力,人机协作进入“增强智能”新阶段。
当语言不再是AI输入/输出的唯一载体,大语言模型的“使命”究竟是什么?在新书里,特伦斯给出了他的答案:大语言模型,仍是新一轮智能革命的核心驱动力。
人工智能与神经科学如何相互促进,是贯穿《大语言模型:新一轮智能革命的核心驱动力》一书的主题。在讨论大语言模型是否真正“理解”其输出内容的争论中,特伦斯联想到一个世纪前关于“生命本质”的讨论:生命体与非生命物质的本质区别是什么?当时生命力论者认为,生命依赖于一种无形的“生命力”,正是这种只存在于生物体内的力量将其区别于无生命物质。然而,这一描述仍过于抽象。直到DNA双螺旋结构的发现,才给这一问题带来革命性突破。
在特伦斯看来,如今围绕“智能”和“理解”的争论恰恰是“生命本质”辩论的翻版。从某种程度上看,通用人工智能(Artificial General Intelligence,AGI)正如“生命力”所试图阐释的那样,预示着一种对生命实在的无限逼近。“可以预见,机器学习的进步最终可能会催生一个全新的概念框架,就像DNA结构之于生物学一样,为人工智能领域带来根本性突破。”而现在,是重新审视旧有概念的最佳时机。
https://brainprize.org/winners/computational-and-theoretical-neuroscience-2024/terrence-j-sejnowski
本文由主机测评网于2025-12-31发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20251214024.html