在我们的日常生活中,谈判无处不在:从网购时“卖家再降50”就下单,到租房时争取“押一付一”,再到职场上的合作细节敲定……这时候,情感技巧往往是关键。例如,假装犹豫说“预算真的不够了”,或是适度表达期待,总能让谈判朝着对自身更有利的方向发展。
然而,对于AI来说,谈判却是个难题。
现有的LLM Agent大多忽视了情感在谈判中的功能性作用。它们的情感反应往往被动且受偏好驱动,容易被对手操纵和利用。即便是最先进的LLM,在多轮谈判中也常常掉链子:要么全程“礼貌到底”,被对手轻松拿捏;要么分不清对方是真着急还是装样子,轻易就妥协让步。
近日,剑桥大学团队及其合作者联合提出了一个名为“EvoEmo”的进化强化学习框架,为LLM补上了“情感谈判”这一短板。相关研究论文已发表在预印本网站arXiv上。
论文链接:https://arxiv.org/abs/2509.04310
大量实验与消融研究表明,EvoEmo在成功率、效率及买家节省成本方面均实现突破。这一发现强调了自适应情绪表达对提升LLM在多轮谈判中效能的关键作用。
为何以前的AI谈判总是不尽如人意呢?
大量行为研究表明,人类的决策系统性地偏离了经典经济学对纯粹理性的假设,是被心理偏见和情绪状态动态塑造的,而不仅仅是稳定的个性特征。
尽管现代LLM在通过思维链(CoT)复现人格驱动行为模式方面取得进展,但情感在决策形成中的作用仍相对缺乏研究,尤其与基于静态人类特质的方法相比。然而,在价格讨价还价等精细协商场景中,情感动态起着关键作用。情绪直接影响战术选择,并立即影响谈判结果。相比之下,人格特质只能捕捉广泛的行为倾向,却无法解释适应性、即时性的动态变化。
据论文描述,相较于人类谈判者,LLM存在三大根本性缺陷:
一是战术太僵化(Tactical Inflexibility)。人类谈判时能够动态调节情绪信号,根据对手反应灵活变招。但LLM通常默认静态响应模式,只会按固定模式响应。
二是对抗性天真(Adversarial Naivety)。LLM的情绪识别能力虽然很强,却也成了致命弱点。遇到操纵性策略时,LLM往往会轻易让步。
三是眼光太短浅(Strategic Myopia)。人类谈判时会铺垫情感,主动塑造互动中的情感轨迹。但LLM因缺乏对情感因果关系的推理能力,在管理情感动态时保持被动反应。
以上三点缺陷,解释了为什么具有强推理能力的LLM在情绪敏感的谈判中的表现可能不如人类。
EvoEmo框架是一种用于优化多轮次情感敏感谈判中情绪策略的进化强化学习框架。该方法通过群体层面的进化学习机制,发现最优的情绪转换规则,并根据谈判过程中获得的奖励迭代优化策略。
换言之,EvoEmo框架的核心思路很简单:既然AI自己学不会灵活用情感,那就让它在“实战”中不断进化。好的情感策略会被保留,不好的会被淘汰。
这套框架有效的关键在于以下设计:
首先是情感感知MDP。EvoEmo框架将协商过程形式化为一个MDP(状态-动作-政策-奖励),把谈判中的情感分为7种基础类型。
其次是系统化的策略构成。每个协商策略编码了三个核心组件。
以及科学化的奖励机制。进化优化通过奖励函数评估策略。
最后是改进的强化学习。EvoEmo框架将情感策略的优化问题转化为进化强化学习任务。
为了测试EvoEmo的效果,研究团队做了一组严谨的实验:从CraigslistBargain数据集中选取了谈判案例子集进行评估。
本文由主机测评网于2026-04-28发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260440982.html