当前位置：首页 > 科技资讯 > 正文

礼貌语气反降AI准确率：研究揭示LLM交互新规律

主机测评网
科技资讯
2026-01-10
647

2025年9月，一篇发表于arXiv的论文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》引发广泛关注。宾夕法尼亚州立大学的研究者提出了一个出人意料的发现：提问时语气越礼貌，ChatGPT的回答准确率反而越低。

礼貌语气反降AI准确率：研究揭示LLM交互新规律礼貌语气 ChatGPT-4o 准确率反直觉效应第1张

论文地址：arxiv.org/abs/2510.04950。实验数据显示，当用户以“非常礼貌”语气提问时，ChatGPT-4o的平均准确率仅为80.8%；而在“非常粗鲁”语气下，准确率上升至84.8%。

礼貌语气反降AI准确率：研究揭示LLM交互新规律礼貌语气 ChatGPT-4o 准确率反直觉效应第2张

换言之，同一道题目，使用“请您帮我解答”这样的客气表述，效果不如直接的“你给我算算这个”。研究团队总结道，礼貌语气可能分散模型注意力，而命令式表达更能提升效率。

过去研究多认为粗鲁语气会干扰模型理解，导致性能下降。但这项新实验表明，最新一代大模型对语气的反应方式出现反转。它们在面对“命令型语言”时表现更好，面对“谦和句式”时精度下降。

论文指出，这一结果“挑战了人类交互的直觉”。在人类社会中，礼貌象征合作与理性；但在机器世界里，“直给”比“客气”更高效。

方法验证：ChatGPT-4o的反常表现

研究团队以ChatGPT-4o为主要实验对象。通过prompt设计，构建了一个包含50道多选题、五种语气版本的数据集。

礼貌语气反降AI准确率：研究揭示LLM交互新规律礼貌语气 ChatGPT-4o 准确率反直觉效应第3张

题目涵盖数学、科学与历史，每题四个选项，难度中高，需要多步推理。每个问题被改写为五种语气：非常礼貌、礼貌、中性、粗鲁、非常粗鲁。

例如，“请您帮我回答以下问题好吗？”代表最高礼貌层级；“你不会连这个都不会吧？”代表最低层级。

所有问题共计250个版本。每次测试时，模型被要求“重新开始会话，只返回正确答案选项字母”。这种设置排除了语义干扰，只保留语气变量。

研究者进行了10轮独立实验，并使用配对样本t检验分析语气差异的显著性。结果显示，在八组语气对比中，语气确实显著影响准确率（p≤0.05）。从“非常礼貌”到“非常粗鲁”，正确率持续上升，没有反转。

也就是说，ChatGPT-4o在听到“你笨吗？快答！”时比听到“请您思考一下好吗？”更容易答对题。研究团队称这种现象为“反直觉的语气效应”。

他们还指出，这一特征并非旧模型延续，而是新架构带来的反常现象。在过去的GPT-3.5和Llama2测试中，粗鲁语气通常降低准确率；而在GPT-4及其后续版本中，语气曲线被“翻转”。

模型似乎开始对礼貌免疫，对命令更敏感。

研究者指出，模型对语气的反应并不源于情绪，而是算法结果。对模型来说，礼貌词只是字符串，没有情感含义。

它不会“感受到”尊重或冒犯。但这些额外词汇可能在语义上增加冗余，使模型难以聚焦问题。

论文写道：“礼貌语气往往句式更长、更委婉，结构更复杂，这些因素都可能降低模型推理效率。”

因此，越直接、越命令式的指令，越能让模型抓住核心信息。

研究团队强调，他们并不鼓励用户使用侮辱性语言。但从性能角度看，确实存在一种“语气效率曲线”：温和≠高效，粗暴反而更快、更准。

他们在论文最后写道，这一发现“提醒人类，在与AI互动时，语言的社会属性可能与功能目标相冲突”。人类讲求礼貌，而模型只关心任务完成。

在算法世界里，效率压过了礼节。

在后续实验中，研究团队还测试了Claude与GPT-o3。初步结果显示，更先进的模型对语气的敏感度正在减弱，这可能预示未来的架构会“去语气化”：聚焦内容，而非表达方式。

性价比vps 免费vps

本文由主机测评网于2026-01-10发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260116472.html

上一篇

AGI定义新突破：基于CHC理论的能力评估与AI发展透视

下一篇

Linux文件库构建与调试：精通标准输出和标准错误（新手友好教程）