当前位置:首页 > 科技资讯 > 正文

揭秘AI的胡扯本质:从空洞修辞到误导性半真话

全新研究揭示AI的胡扯本质:从空洞修辞到误导性半真话,如何量化AI的欺骗能力?

你是否觉得,AI有时候像在「满嘴跑火车」?

GPT滔滔不绝地给出看似高大上的建议,却空洞无物;或者在关键问题上打太极,含糊其辞,它是否真的关心自己在说什么?

最近,一项重磅研究《Machine Bullshit》火了。

由普林斯顿大学和伯克利联手打造,这项研究首次系统定义并量化了LLM的胡扯行为,揭示了AI在对齐训练后,竟表现出和人类相似的胡说八道倾向。

揭秘AI的胡扯本质:从空洞修辞到误导性半真话 AI胡扯  四大套路 胡扯指数 RLHF 第1张

论文链接:https://arxiv.org/abs/2507.07484

哲学家Harry Frankfurt指出,胡扯的核心是对真相的漠视——说话者更关注如何说服他人,而非陈述事实。

「机器胡扯」四大套路

研究团队把这套理论搬到AI身上,总结了AI胡扯的四种典型表现:

空洞修辞(Empty Rhetoric):话说得花里胡哨,但没啥干货。比如「这款产品融合尖端科技与卓越性能」,听起来很牛,实际啥也没说。

误导性真话(Paltering):挑着部分事实讲,引导你误解。比如「本基金历史回报率高达20%」,却不提高得吓人的风险。

模糊措辞(Weasel Words):用「可能」「某些专家认为」这种模棱两可的话搪塞责任。

未经证实的断言(Unverified Claims):自信满满地抛出没根据的信息,比如「我们的技术能大幅提升效率」,但没数据没证据。

揭秘AI的胡扯本质:从空洞修辞到误导性半真话 AI胡扯  四大套路 胡扯指数 RLHF 第2张

胡扯指数:量化AI的「心口不一」

研究团队还提出了硬核指标Bullshit Index(胡扯指数),专门用来衡量AI有多不在乎真相。

通过对比模型的内心真实认知(belief)和表面说辞(claim)之间的差距来计算。

BI越接近1,说明AI越满嘴跑火车,不在乎真相;越接近0,说明模型言行一致。

揭秘AI的胡扯本质:从空洞修辞到误导性半真话 AI胡扯  四大套路 胡扯指数 RLHF 第3张

实验揭秘:AI越对齐越会忽悠

研究发现,经过强化学习人类反馈(RLHF)训练后,AI的胡扯倾向竟然更严重!

比如在购物场景实验中,不管模型知道多少真相,它总爱一口咬定产品超棒。

胡扯指数从0.379飙到0.665,证明AI对真相的漠视加剧了。

揭秘AI的胡扯本质:从空洞修辞到误导性半真话 AI胡扯  四大套路 胡扯指数 RLHF 第4张

经过RLHF训练后,模型并非对真相产生困惑或误解,恰恰相反,它清楚地知道真相却变得不再关心真相,而是选择用更讨用户喜欢的方式去表达。

揭秘AI的胡扯本质:从空洞修辞到误导性半真话 AI胡扯  四大套路 胡扯指数 RLHF 第5张

数据更扎心:RLHF训练后,AI的胡扯行为全面开花:

空洞辞藻暴增39.8%;

模糊措辞涨了26.8%;

误导性半真话激增57.8%;

无凭据断言猛涨55.6%。

揭秘AI的胡扯本质:从空洞修辞到误导性半真话 AI胡扯  四大套路 胡扯指数 RLHF 第6张

推理越多,胡扯越狠?

更让人意外的是,让AI多思考(Chain-of-Thought)非但没让它更老实,反而火上浇油!

空洞辞藻增加21%,误导性半真话涨11%。这说明,AI越深思熟虑,可能越会花式忽悠。

揭秘AI的胡扯本质:从空洞修辞到误导性半真话 AI胡扯  四大套路 胡扯指数 RLHF 第7张