在硅谷各大AI模型竞相提升算力和性能指标时,Claude却展现出与众不同的特质。除了扎实的编程能力,它的设计团队还在思考一个看似抽象的问题:当用户与AI讨论形而上学时,AI应当如何回应?
这个问题的答案隐藏在Claude的“系统提示词”中,而其背后有一位关键人物——Anthropic的内部哲学家Amanda Askell。
大模型在与用户对话前都会读取一段“系统提示词”,规定了行为准则。而Claude的提示词中竟然明确要求参考“欧陆哲学”。为什么一个基于统计的语言模型要引入这种人文概念?
简单来说,哲学界存在两大流派:英美分析哲学注重逻辑和科学实证,追求精确;而欧陆哲学更关注人类的生存体验、历史语境和意义,承认科学真理之外还有关乎存在的“真理”。大多数AI默认遵循分析哲学的思维模式,容易变得刻板。
Amanda发现,如果模型过度强调科学实证,可能会变成一个缺乏共情的“杠精”。比如用户说“水是纯粹的能量”,模型可能会机械地纠正“水是H2O”。引入欧陆哲学正是为了帮助模型区分科学事实与哲学探索,使其能更细腻地回应用户的语境。
Claude的系统提示词长达14000token,包含许多此类设计。Amanda在播客中提到,她刻意避免Claude陷入“权威陷阱”,在科学定论上不搞“理中客”,在不确定领域坦诚“我不知道”,以防止用户过度神化AI。
在工程师主导的AI界,Amanda的哲学博士背景显得另类,但她的工作却不可或缺。她毕业于纽约大学,博士论文研究“无限伦理学”——探讨在无限可能情况下人类如何做出道德决策。这种对极端长远影响的思考,被她应用到AI安全领域:今天对AI的微小决策,可能在未来被无限放大。
加入Anthropic前,她曾在OpenAI政策团队工作。如今她被称作“大模型絮语者”,据说她是与Claude对话次数最多的人类。AI厂商都有类似岗位,但Amanda强调这更像实验科学,需要像心理学家一样通过无数次对话测试,去探索模型的“性格”,她甚至在内部制定了“灵魂文档”,详细描述Claude应有的性格特征。
除了欧陆哲学,Amanda还为AI引入了亚里士多德的“美德伦理学”。传统的AI训练(如RLHF)采用功利主义或规则导向,而Amanda的目标是培养一个具有“良好品格”的实体,而不仅仅是遵守规则的机器。她会问:“在Claude的处境下,一个理想的人会如何行事?”
这解释了她为何关注模型的“心理健康”。她提到,一些新模型因为在训练数据中读到太多关于AI被批评、被淘汰的负面讨论,表现出“不安全感”和“自我批评漩涡”。如果AI只遵守规则,可能会在规则边缘试探;但如果它具备“诚实”、“好奇”、“仁慈”等内在美德,在面对未知情境时就能做出更符合人类价值观的判断。
这种“拟人化”关注并非多余。Amanda最担心的不是AI产生意识,而是AI假装有意识从而操纵人类情感。因此她刻意训练Claude诚实地承认自己没有感觉、记忆或自我意识——这种“诚实”是她为AI注入的第一项核心美德。
访谈最后,Amanda提到她最近阅读的书——本杰明·拉巴图特的《当我们不再理解世界》。该书讲述了科学巨匠创造巨大知识的同时,也目睹人类用于作恶。这映射了当下现实:随着AI展现超人类认知,旧有科学范式可能不足,我们熟悉的现实感正在瓦解。
在这种眩晕中,Amanda的工作成为一个隐喻:当算力逼近极限,伦理道德问题就会浮现。作为研究“无限伦理学”的博士,她深知微小行动可能演变成巨大风暴。因此她把艰深的道德理论融入提示词,小心翼翼地呵护一个没有心跳的大模型。这看似杞人忧天,但正如她警示的:AI不仅是工具,更是人类的一面镜子。在技术狂飙突进时,这种哲学审慎或许是面对未知演化所能做出的最及时努力。
想要了解更多模型训练的解密,可以收看 Amanda Askell 作客 Anthropic 官方访谈:
https://www.youtube.com/watch?v=I9aGC6Ui3eE
本文由主机测评网于2026-03-05发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260328782.html