当前位置:首页 > 科技资讯 > 正文

对话式AI:从概念到现实的飞跃

当你对着桌面上的AI毛绒玩具“芙崽”倾诉时,你可能未曾意识到,人类与AI的自然对话正引领一场实时语音技术的新浪潮,开辟出一片广阔无垠的商业蓝海。

10月31日,声网携手RTE开发者社区,在北京共同举办了Convo AI&RTE 2025第十一届实时互联网大会。会上,声网创始人兼CEO赵斌分享了一组令人瞩目的数据——

2025年,67%的企业将对话式AI智能体视为战略核心,84%的企业计划在未来一年内增加相关投入(数据来自Deepgram、Opus Research)。

与之相呼应的是,声网对话式AI相关用量在2025年第三季度实现了151%的环比增长,彰显了强劲的市场需求。

对话式AI:从概念到现实的飞跃 对话式AI 实时语音技术 声网 商业蓝海 第1张

对话式AI融合了大型语言模型(LLM)、自动语音识别(ASR)、文字转语音(TTS)、实时互动(RTE)等先进技术。

与AI对话,许多人可能认为AI就像复读机一样,毫无感情。而对话式AI的出现,让AI能够像人类一样自然、真实、流畅地对话。

正如电影《Her》中的Samantha成为现实——小方块不仅准确识别语音、文本、图像,还能根据人类的语气、情绪、语言习惯调整回复的语气。

为帮助企业和开发者抓住这一历史机遇,声网在大会上发布了《2025对话式AI发展白皮书》。这份白皮书基于行业调研和RTE行业经验,为对话式AI梳理了一份完整的发展图谱,涵盖技术演进、核心技术、主流方案和业态、质量评估体系、行业实践案例以及未来趋势展望。

对话式AI:从概念到现实的飞跃 对话式AI 实时语音技术 声网 商业蓝海 第2张

除了理论探讨,声网还通过实际行动推动对话式AI的发展。此次发布会,声网发布了一系列对话式AI产品,包括下一代对话式AI引擎、配套的对话式AI开发套件、模型的评测平台和编排平台等。

一场对话式AI的浪潮正在兴起。

对话式AI走进现实

回想一下:你通常在什么情况下会调用苹果手机里的Siri进行对话?

大多数人可能会回答,大概是睡前定闹钟的时候。数据显示,目前仅21%的用户对现有的AI对话体验感到满意,部分服务的用户流失率甚至高得“令人难以接受”。

其实,人类并非不愿意与AI交流,只是AI太不懂人类。本质上,人类的对话中,仅有7%的信息来自语言内容,超过90%的信息感知来自语调、表情、肢体语言等非语言要素。

要让AI进行“类人对话”,企业还需克服诸多技术挑战。

例如,目前大部分对话式AI的端到端延迟普遍在3秒以上——人类之间聊天的延迟通常在400毫秒左右。正是这短暂的3秒,构成了人机交互的一大痛点。在商业领域,仅几秒的等待就可能让用户失去耐心。因此,与时间赛跑,缩短响应延迟,成为提升AI对话体验的关键。

除了延迟问题外,另一个技术挑战是AI如何具备人类的“智慧内核”。

在一些人机交互场景中,AI可能会因为用户的清嗓声、键盘声或片刻迟疑而被打断,导致上下文中断。在嘈杂的环境中,AI也难以锚定用户的声音而失去注意力。

这些体验看似细微,却是建立人与AI之间信任和情感依赖的关键。用户期待的不仅仅是一个提供正确答案的机器,更希望一个“有温度”的AI。

为此,声网创始人兼CEO赵斌将对话式AI的技术挑战概括为几点:低延迟响应、自然打断、上下文管理、情感理解与表达等。

为解决这些技术难点,行业主流采用级联模式。该模式将语音对话分解为三个独立步骤(语音转文字ASR—大模型理解文字LLM—文字转语音TTS),像流水线一样高效运作。

与其他模式相比,级联模式更加模块化,开发者可以灵活选择优秀的供应商来优化成本、提升效果。因此,级联模式成为大多数AI客服、智能音箱等应用的首选技术方案。

对话式AI:从概念到现实的飞跃 对话式AI 实时语音技术 声网 商业蓝海 第3张

声网的对话式AI引擎2.0依托全球实时网络,实现端到端高速响应和超低延迟。此外,还内置了智能打断、声纹识别等功能,使对话更加智能。作为一站式解决方案,引擎2.0旨在解决上述痛点。

给对话式AI一把“尺”

无论是与人类还是AI交流,对话都是主观的。但要让对话式AI长远发展,行业需要一套全面、完整且客观的评估框架。

尽管行业已提出部分评估方法,如任务完成率、词汇错误率等,但这些是单点技术指标评估,维度过于碎片化。现实是,对话式AI的语音、对话等要素太复杂,原有评估手段与实际体验存在巨大差距。

因此,《2025对话式AI发展白皮书》提出了“三维二轨”评估框架。“三维”考核的是AI本身的能力(理解能力、表达能力、交互能力),“二轨”则是通过基准测试和用户导向测试两种方法评估AI。

对话式AI:从概念到现实的飞跃 对话式AI 实时语音技术 声网 商业蓝海 第4张

对话式AI落地:润物细无声

目前,对话式AI已在智能硬件、情感陪伴、在线教育三大场景中率先实现规模化落地。

以“芙崽”为代表的AI陪伴硬件引爆行业,以Ray-ban meta为代表的AI眼镜也掀起“百镜大战”。在这些热闹的AI硬件中,对话式AI赋予了冷冰冰的硬件类人的灵魂和智慧。

对话式AI:从概念到现实的飞跃 对话式AI 实时语音技术 声网 商业蓝海 第5张

在情感陪伴领域,以星野、Charecter.AI为代表的社交应用中,对话式AI使机械应答进化为具有记忆力、个性和共情能力的社交引擎。

在教育领域,对话式AI正在引发教学革命。例如,它让口语陪练更拟人化,营造沉浸感强的语言学习环境;所衍生的豆神AI也促进了教育资源的平等。

结语

最早诞生于60年代的对话式AI在大模型时代具备类人能力后迎来飞跃时刻。这一看似简单的技术却具有深远意义。

首先它彻底改变了人类与机器沟通的底层逻辑使过去以图形界面(GUI)为主的人机交互进化到更符合人类本能的交流方式。这种转变将大大降低AI技术的使用门槛实现平权和技术普惠。