当前位置:首页 > 科技资讯 > 正文

礼貌语气反降AI准确率:研究揭示LLM交互新规律

2025年9月,一篇发表于arXiv的论文《Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy》引发广泛关注。宾夕法尼亚州立大学的研究者提出了一个出人意料的发现:提问时语气越礼貌,ChatGPT的回答准确率反而越低

礼貌语气反降AI准确率:研究揭示LLM交互新规律 礼貌语气  ChatGPT-4o 准确率 反直觉效应 第1张

论文地址:arxiv.org/abs/2510.04950。实验数据显示,当用户以“非常礼貌”语气提问时,ChatGPT-4o的平均准确率仅为80.8%;而在“非常粗鲁”语气下,准确率上升至84.8%

礼貌语气反降AI准确率:研究揭示LLM交互新规律 礼貌语气  ChatGPT-4o 准确率 反直觉效应 第2张

换言之,同一道题目,使用“请您帮我解答”这样的客气表述,效果不如直接的“你给我算算这个”。研究团队总结道,礼貌语气可能分散模型注意力,而命令式表达更能提升效率

过去研究多认为粗鲁语气会干扰模型理解,导致性能下降。但这项新实验表明,最新一代大模型对语气的反应方式出现反转。它们在面对“命令型语言”时表现更好,面对“谦和句式”时精度下降。

论文指出,这一结果“挑战了人类交互的直觉”。在人类社会中,礼貌象征合作与理性;但在机器世界里,“直给”比“客气”更高效。

方法验证:ChatGPT-4o的反常表现

研究团队以ChatGPT-4o为主要实验对象。通过prompt设计,构建了一个包含50道多选题、五种语气版本的数据集。

礼貌语气反降AI准确率:研究揭示LLM交互新规律 礼貌语气  ChatGPT-4o 准确率 反直觉效应 第3张

题目涵盖数学、科学与历史,每题四个选项,难度中高,需要多步推理。每个问题被改写为五种语气:非常礼貌、礼貌、中性、粗鲁、非常粗鲁

例如,“请您帮我回答以下问题好吗?”代表最高礼貌层级;“你不会连这个都不会吧?”代表最低层级。

所有问题共计250个版本。每次测试时,模型被要求“重新开始会话,只返回正确答案选项字母”。这种设置排除了语义干扰,只保留语气变量。

研究者进行了10轮独立实验,并使用配对样本t检验分析语气差异的显著性。结果显示,在八组语气对比中,语气确实显著影响准确率(p≤0.05)。从“非常礼貌”到“非常粗鲁”,正确率持续上升,没有反转。

也就是说,ChatGPT-4o在听到“你笨吗?快答!”时比听到“请您思考一下好吗?”更容易答对题。研究团队称这种现象为“反直觉的语气效应”。

他们还指出,这一特征并非旧模型延续,而是新架构带来的反常现象。在过去的GPT-3.5和Llama2测试中,粗鲁语气通常降低准确率;而在GPT-4及其后续版本中,语气曲线被“翻转”。

模型似乎开始对礼貌免疫,对命令更敏感

研究者指出,模型对语气的反应并不源于情绪,而是算法结果。对模型来说,礼貌词只是字符串,没有情感含义

它不会“感受到”尊重或冒犯。但这些额外词汇可能在语义上增加冗余,使模型难以聚焦问题。

论文写道:“礼貌语气往往句式更长、更委婉,结构更复杂,这些因素都可能降低模型推理效率。”

因此,越直接、越命令式的指令,越能让模型抓住核心信息

研究团队强调,他们并不鼓励用户使用侮辱性语言。但从性能角度看,确实存在一种“语气效率曲线”:温和≠高效,粗暴反而更快、更准

他们在论文最后写道,这一发现“提醒人类,在与AI互动时,语言的社会属性可能与功能目标相冲突”。人类讲求礼貌,而模型只关心任务完成。

在算法世界里,效率压过了礼节。

在后续实验中,研究团队还测试了Claude与GPT-o3。初步结果显示,更先进的模型对语气的敏感度正在减弱,这可能预示未来的架构会“去语气化”:聚焦内容,而非表达方式。