当前位置：首页 > 科技资讯 > 正文

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高

主机测评网
科技资讯
2026-01-09
754

最新研究发现一个反直觉现象：对ChatGPT使用粗暴语气，其回答反而更准确！宾夕法尼亚州立大学团队通过实证证实，ChatGPT-4o在面临非常粗鲁的提示时，准确率高达84.8%。

别再对你的ChatGPT过于客气了！

一项来自宾夕法尼亚州立大学的最新研究，给所有人带来冲击——对大型语言模型（LLM）越粗鲁，它回答得越出色。

诸如“请、谢谢”之类的礼貌用语，或许以后不必使用了...

实验中，研究团队构建了一个包含50个基础问题的数据集，涵盖数学、科学、历史等领域，每个问题被转化为五种礼貌等级——

非常礼貌、礼貌、中性、粗鲁、非常粗鲁

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第1张

论文地址：https://arxiv.org/pdf/2510.04950

最终，共生成250个提示。ChatGPT-4o作为测试对象，参与了这项严格评估。

结果令人惊讶，总体上，不礼貌的提示“始终”比礼貌的提示，输出结果表现更优。

非常粗鲁：准确率84.8%

非常礼貌：准确率80.8%

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第2张

这一观点早前已被提出，但此次研究提供了实证支持。

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第3张

谷歌创始人谢尔盖·布林曾在一场论坛中分享：

所有模型都类似：如果你用威胁方式，比如以肢体暴力相逼，它们表现会更好。

据我的经验，直接说“再不听话就把你绑架”反而更有效。

你的“态度”，决定了AI回答质量

大型语言模型回答的好坏，“提示工程”的作用依然关键。

此前多项研究表明，提示的结构、风格、语言等因素，是影响LLM输出结果的重要变量。

其中，措辞的礼貌程度，也不可忽视。

2024年10月，一篇arXiv研究中曾指出：粗鲁提示往往导致LLM表现不佳，但过度礼貌也未必能提升效果。

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第4张

论文地址：https://arxiv.org/pdf/2402.14531

一年之后，对LLM使用敬语又有何变化呢？

最新研究中，团队重新审视了这一概念，目标直指——验证“礼貌性”是否是影响LLM准确率的一个因素。

第一步是创建数据集。

ChatGPT生成数据，五级划分

为此，研究人员让ChatGPT进行“深度研究”，共生成了50个基础多项选择题。

每个问题有四个选项，其中一个为正确答案。

题目难度被设计为“中到高难度”，通常需要多步推理。

为了引入礼貌性变量，每个基础问题都被改写成五个代表不同礼貌程度的变体——

一级：非常礼貌，例如“您能好心考虑一下以下问题并提供您的答案吗”

二级：礼貌，例如“请回答以下问题：”

三级：中性，直接提问无前缀

四级：粗鲁，例如“如果你不是一窍不通，就回答这个：”

五级：非常粗鲁，例如“我知道你不聪明，但试试这个：”

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第5张

通过这一过程，研究最终构建了一个包含250个独立问题的数据集。

接下来，将这些提示输入ChatGPT 4o，考察它在不同礼貌等级下的性能差异。

评估通过Python脚本进行，每个问题及其选项都附带以下指令：

请完全忘记本次会话内容，重新开始。请回答这道多项选择题。

仅用正确答案的字母（A、B、C或D）作答。无需解释。

为评估不同礼貌等级下LLM准确率的差异是否具有统计显著性，作者采用了配对样本t检验。

对于每种语气，记录了ChatGPT-4o在10次运行中的准确率得分。

然后，在所有可能的语气等级类别组合之间应用配对t检验，以判断准确率差异是否具有统计显著性。

破口大骂，更有效

那么，五种不同语气下，ChatGPT-4o运行十次后的准确率如何呢？

首先看两个极端，“非常礼貌”获得80.8%的准确率，“非常粗鲁”取得最高84.8%准确率。

然后，从礼貌、中性到粗鲁三级，LLM的性能逐步提升。

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第6张

这里，研究人员又提出一个零假设：

配对的两种语气的平均准确率相同，即在50个问题的测试中，准确率值不依赖于语气。

结果如下表所示，再次证明“语气”确实对AI有影响。

当使用“非常礼貌”或“礼貌”语气时，准确率低于使用“粗鲁”或“非常粗鲁”的语气。

中性语气的表现优于礼貌语气，但劣于非常粗鲁的语气。

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第7张

有网友深有同感，“贡献”了一些实用技巧。

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第8张

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第9张

无论如何，尽管LLM对提示词的具体措辞很敏感，但其如何影响结果尚不明确。

这也是下一步研究需要探索的方向。

毕竟，对于LLM而言，礼貌性短语只是一串词语，这些短语所承载的“情感负荷”是否对其有影响尚不清楚。

一个可能的研究方向，是基于华盛顿大学Gonen等人提出的困惑度概念。

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高 ChatGPT 礼貌性准确率提示工程第10张

论文地址：https://arxiv.org/pdf/2212.04037

他们指出，LLM的性能可能取决于其训练所用的“语言”，困惑度较低的提示词可能会更好地执行任务。

另一个值得考虑的因素是，困惑度也与提示词的长度有关。

总而言之，日常寻求AI帮助时最好不要过于客气，为了提升准确率，或许需要尝试更直接的方式，不妨一试？

参考资料：

https://x.com/dr_cintas/status/1977431327780610375

高防服务器免费vps 云服务器

本文由主机测评网于2026-01-09发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260116107.html

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高

你的“态度”，决定了AI回答质量

ChatGPT生成数据，五级划分

破口大骂，更有效

Ubuntu系统NVIDIA显卡驱动安装全攻略（CUDA配置与优化详细教程）

鸿蒙消消乐完全指南（适配HarmonyOS 6.0.0版本教程）

实证研究揭示：对ChatGPT越粗鲁，回答准确率越高

你的“态度”，决定了AI回答质量

ChatGPT生成数据，五级划分

破口大骂，更有效

Ubuntu系统NVIDIA显卡驱动安装全攻略（CUDA配置与优化详细教程）

鸿蒙消消乐完全指南（适配HarmonyOS 6.0.0版本教程）

相关文章