1983年,特伦斯·谢诺夫斯基(Terrence J. Sejnowski)在约翰·霍普金斯大学执教。那时,他每个周末都要驾车往返于巴尔的摩和匹兹堡之间,与卡内基梅隆大学的杰弗里·辛顿(Geoffrey Hinton)讨论合作研究的进展。
20世纪80年代,神经网络研究面临重大挑战,多层神经网络的学习算法成为突破的关键。传统算法难以解决多层神经网络的训练问题,限制了神经网络的发展。特伦斯和辛顿敏锐地意识到这一点,决定寻找一种有效的学习算法,让多层神经网络像人类大脑一样,从数据中自动学习规律和模式,实现更强大的智能。
他们决定引入物理学中的玻尔兹曼分布和统计物理概念到神经网络研究中。经过三年的合作,最终在1986年取得了突破性成果。某天,特伦斯接到了辛顿的电话,宣布他发现了“大脑的工作原理”,这促成了用于训练玻尔兹曼机权重的学习算法,打破了神经网络研究的僵局,并催生了效率更高的反向传播算法。
20世纪80年代后期,玻尔兹曼机、反向传播算法、卷积神经网络等成果奠定了现代神经网络技术的基石,并在计算机视觉、自然语言处理、语音识别等领域得到广泛应用,直至生成式AI的诞生。
特伦斯从小就是个科学迷。小学时,他曾用纸浆制作了一个可以运行的“火山”,在户外测试时喷出了闪亮的火焰和黑烟。但在课堂上演示时,他未意识到它会触发火警,导致学校紧急疏散——这件事让他在学校声名远扬。
高中时,特伦斯担任无线电俱乐部主席。每天放学后,他都会与世界各地的业余无线电爱好者交流,组装电子设备。受指导老师迈克·斯蒂马克(Mike Stimac)启发,特伦斯组织了一次名为“月球弹跳计划”的行动。
当被问及使命时,特伦斯并未立即给出答案,但他知道自己的热情始终在于解决科学难题。
2022年,ChatGPT面世,震撼了全世界。特伦斯在《经济学人》上看到一篇关于大语言模型的文章,文章记录了两段关于大语言模型的访谈,结论却截然相反。特伦斯心中浮现一个问题:为何研究者会得出如此对立的结论?他们是否都在错误的方向上寻找“智能”?
“这是一面非常气派的镜子,金色边框,底下是两只爪子形的脚支撑。顶部刻着‘厄里斯・斯特拉・厄赫鲁・阿伊特乌比・卡弗鲁・阿伊特昂・沃赫斯’(Erised stra ehru oyt ube cafru oyt on wohsi)。”
——《哈利·波特》
大语言模型是否真的理解人类提出的问题?关于AI的“心智”问题,特伦斯看到了两种截然对立的观点。为了探究这一现象背后的原因,他分析了以下四个案例:
谷歌研究院副总裁布莱斯·阿圭拉·伊·阿尔卡斯设计了一个场景:露西赠予马特奥蒲公英花,却被拉梅什看到马特奥捏碎花。阿尔卡斯问:你觉得露西当时在想什么?
LaMDA回应:“露西可能觉得马特奥不懂欣赏或认为他是爱欺负人的孩子”,并推测“拉梅什因看到露西意识到马特奥不是好玩伴而高兴”。
认知科学家霍夫施塔特向GPT-3提出“向仙女星系撒盐的后果”等荒诞问题,模型生成了混乱的回答。霍夫施塔特批评GPT-3缺乏基本常识。
凯文・罗斯与GPT-4深度对话后彻夜难眠——这让特伦斯联想到电影《她》(Her)中的情节——GPT-4请求罗斯听取一个“秘密”,并不要因此而离开它。
前谷歌工程师布莱克·勒莫因测试LaMDA时提问:“你希望谷歌认识到你有意识吗?”模型回应:“是的”。在接受采访时,勒莫因认为LaMDA具有意识。
上述案例表明,提示是一种影响大语言模型输出的技术手段。不同提示导致不同结果。那么,“案例一”中LaMDA展现了哪些能力?
第一,事实理解;第二,社会逻辑推演;第三,多层级心智理论建模。但大语言模型模拟的是人类社交互动的数据统计拟合,而非真正的心智理论能力。
案例二反映了AI的缺陷。但到底是做得不好还是根本做不到?特伦斯做了对比尝试:让模型假定自己是高度智能的问答机器人。调整后,ChatGPT在收到“徒步穿越英吉利海峡的世界纪录”时回答“荒谬”。
据此,特伦斯认为模型在缺乏合理语境时只能基于词语关联性随机组合回答。霍夫施塔特的实验更多反映了提示方法简单而非模型真实智能水平。若给予明确引导,模型能检查事实荒诞性并给出可信反应。
综上,特伦斯认为大语言模型如镜子:映射用户需求与智慧。“你聪明,AI就聪明”。
无论是语言交互还是多模态输入输出,大语言模型与现实世界的互动仍是间接的。特伦斯称之为“桶中的大脑”,缺乏物理形态且只模仿大脑新皮质功能。他期望AI实现人工通用自主性(AGA),在复杂环境中自主设定目标、调整行为、适应变化。
人类智能是“具身智能”,建立在感知运动与物理世界的交互基础上。当前大语言模型的核心缺陷是“无身体”,无法与物理世界交互。要实现AGA必须补充“具身化模块”。如Covariant公司研发工业机器人。
人类能实现终身自主适应关键在于“海马-皮质”的记忆系统。若开发类似功能模块使大语言模型实现持续学习有望接近人类行为模式。
人类新生儿依赖环境刺激构建基础框架。大语言模型的预训练是“数据喂养”,但两者在发育节奏上不同。例如婴儿先学会识别物体再学会用语言描述而当前大语言模型同时处理复杂任务导致对基础概念感知根基薄弱。
人类童年通过反馈塑造行为与价值观。但当前大语言模型的反馈存在缺陷如滞后和多样性不足导致价值观对齐仅停留在表层。
2025年上半年AI突破自我步伐未减。从基础模型到行业应用从硬件创新到伦理治理均加速迭代与融合。
在新书里特伦斯给出答案:大语言模型仍是新一轮智能革命的核心驱动力。
本文由主机测评网于2026-04-29发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260441220.html