当前位置:首页 > 科技资讯 > 正文

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高

最新研究发现一个反直觉现象:对ChatGPT使用粗暴语气,其回答反而更准确!宾夕法尼亚州立大学团队通过实证证实,ChatGPT-4o在面临非常粗鲁的提示时,准确率高达84.8%。

别再对你的ChatGPT过于客气了!

一项来自宾夕法尼亚州立大学的最新研究,给所有人带来冲击——对大型语言模型(LLM)越粗鲁,它回答得越出色。

诸如“请、谢谢”之类的礼貌用语,或许以后不必使用了...

实验中,研究团队构建了一个包含50个基础问题的数据集,涵盖数学、科学、历史等领域,每个问题被转化为五种礼貌等级——

非常礼貌、礼貌、中性、粗鲁、非常粗鲁

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第1张

论文地址:https://arxiv.org/pdf/2510.04950

最终,共生成250个提示。ChatGPT-4o作为测试对象,参与了这项严格评估。

结果令人惊讶,总体上,不礼貌的提示“始终”比礼貌的提示,输出结果表现更优。

非常粗鲁:准确率84.8%

非常礼貌:准确率80.8%

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第2张

这一观点早前已被提出,但此次研究提供了实证支持。

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第3张

谷歌创始人谢尔盖·布林曾在一场论坛中分享:

所有模型都类似:如果你用威胁方式,比如以肢体暴力相逼,它们表现会更好。

据我的经验,直接说“再不听话就把你绑架”反而更有效。

你的“态度”,决定了AI回答质量

大型语言模型回答的好坏,“提示工程”的作用依然关键。

此前多项研究表明,提示的结构、风格、语言等因素,是影响LLM输出结果的重要变量。

其中,措辞的礼貌程度,也不可忽视。

2024年10月,一篇arXiv研究中曾指出:粗鲁提示往往导致LLM表现不佳,但过度礼貌也未必能提升效果。

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第4张

论文地址:https://arxiv.org/pdf/2402.14531

一年之后,对LLM使用敬语又有何变化呢?

最新研究中,团队重新审视了这一概念,目标直指——验证“礼貌性”是否是影响LLM准确率的一个因素。

第一步是创建数据集。

ChatGPT生成数据,五级划分

为此,研究人员让ChatGPT进行“深度研究”,共生成了50个基础多项选择题。

每个问题有四个选项,其中一个为正确答案。

题目难度被设计为“中到高难度”,通常需要多步推理。

为了引入礼貌性变量,每个基础问题都被改写成五个代表不同礼貌程度的变体——

一级:非常礼貌,例如“您能好心考虑一下以下问题并提供您的答案吗”

二级:礼貌,例如“请回答以下问题:”

三级:中性,直接提问无前缀

四级:粗鲁,例如“如果你不是一窍不通,就回答这个:”

五级:非常粗鲁,例如“我知道你不聪明,但试试这个:”

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第5张

通过这一过程,研究最终构建了一个包含250个独立问题的数据集。

接下来,将这些提示输入ChatGPT 4o,考察它在不同礼貌等级下的性能差异。

评估通过Python脚本进行,每个问题及其选项都附带以下指令:

请完全忘记本次会话内容,重新开始。请回答这道多项选择题。

仅用正确答案的字母(A、B、C或D)作答。无需解释。

为评估不同礼貌等级下LLM准确率的差异是否具有统计显著性,作者采用了配对样本t检验。

对于每种语气,记录了ChatGPT-4o在10次运行中的准确率得分。

然后,在所有可能的语气等级类别组合之间应用配对t检验,以判断准确率差异是否具有统计显著性。

破口大骂,更有效

那么,五种不同语气下,ChatGPT-4o运行十次后的准确率如何呢?

首先看两个极端,“非常礼貌”获得80.8%的准确率,“非常粗鲁”取得最高84.8%准确率。

然后,从礼貌、中性到粗鲁三级,LLM的性能逐步提升。

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第6张

这里,研究人员又提出一个零假设:

配对的两种语气的平均准确率相同,即在50个问题的测试中,准确率值不依赖于语气。

结果如下表所示,再次证明“语气”确实对AI有影响。

当使用“非常礼貌”或“礼貌”语气时,准确率低于使用“粗鲁”或“非常粗鲁”的语气。

中性语气的表现优于礼貌语气,但劣于非常粗鲁的语气。

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第7张

有网友深有同感,“贡献”了一些实用技巧。

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第8张

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第9张

无论如何,尽管LLM对提示词的具体措辞很敏感,但其如何影响结果尚不明确。

这也是下一步研究需要探索的方向。

毕竟,对于LLM而言,礼貌性短语只是一串词语,这些短语所承载的“情感负荷”是否对其有影响尚不清楚。

一个可能的研究方向,是基于华盛顿大学Gonen等人提出的困惑度概念。

实证研究揭示:对ChatGPT越粗鲁,回答准确率越高 ChatGPT 礼貌性 准确率 提示工程 第10张

论文地址:https://arxiv.org/pdf/2212.04037

他们指出,LLM的性能可能取决于其训练所用的“语言”,困惑度较低的提示词可能会更好地执行任务。

另一个值得考虑的因素是,困惑度也与提示词的长度有关。

总而言之,日常寻求AI帮助时最好不要过于客气,为了提升准确率,或许需要尝试更直接的方式,不妨一试?

参考资料:

https://x.com/dr_cintas/status/1977431327780610375