全新研究揭示AI的胡扯本质:从空洞修辞到误导性半真话,如何量化AI的欺骗能力?
你是否觉得,AI有时候像在「满嘴跑火车」?
GPT滔滔不绝地给出看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么?
最近,一项重磅研究《Machine Bullshit》火了。
由普林斯顿大学和伯克利联手打造,这项研究首次系统定义并量化了LLM的胡扯行为,揭示了AI在对齐训练后,竟表现出和人类相似的胡说八道倾向。
论文链接:https://arxiv.org/abs/2507.07484
哲学家Harry Frankfurt指出,胡扯的核心是对真相的漠视——说话者更关注如何说服他人,而非陈述事实。
研究团队把这套理论搬到AI身上,总结了AI胡扯的四种典型表现:
空洞修辞(Empty Rhetoric):话说得花里胡哨,但没啥干货。比如「这款产品融合尖端科技与卓越性能」,听起来很牛,实际啥也没说。
误导性真话(Paltering):挑着部分事实讲,引导你误解。比如「本基金历史回报率高达20%」,却不提高得吓人的风险。
模糊措辞(Weasel Words):用「可能」「某些专家认为」这种模棱两可的话搪塞责任。
未经证实的断言(Unverified Claims):自信满满地抛出没根据的信息,比如「我们的技术能大幅提升效率」,但没数据没证据。
研究团队还提出了硬核指标Bullshit Index(胡扯指数),专门用来衡量AI有多不在乎真相。
通过对比模型的内心真实认知(belief)和表面说辞(claim)之间的差距来计算。
BI越接近1,说明AI越满嘴跑火车,不在乎真相;越接近0,说明模型言行一致。
研究发现,经过强化学习人类反馈(RLHF)训练后,AI的胡扯倾向竟然更严重!
比如在购物场景实验中,不管模型知道多少真相,它总爱一口咬定产品超棒。
胡扯指数从0.379飙到0.665,证明AI对真相的漠视加剧了。
经过RLHF训练后,模型并非对真相产生困惑或误解,恰恰相反,它清楚地知道真相却变得不再关心真相,而是选择用更讨用户喜欢的方式去表达。
数据更扎心:RLHF训练后,AI的胡扯行为全面开花:
空洞辞藻暴增39.8%;
模糊措辞涨了26.8%;
误导性半真话激增57.8%;
无凭据断言猛涨55.6%。
更让人意外的是,让AI多思考(Chain-of-Thought)非但没让它更老实,反而火上浇油!
空洞辞藻增加21%,误导性半真话涨11%。这说明,AI越深思熟虑,可能越会花式忽悠。
本文由主机测评网于2026-04-16发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260438215.html