当前位置:首页 > 科技资讯 > 正文

声网发布《2025对话式AI发展白皮书》,开启实时语音技术商业新纪元

当你向桌上可爱的AI毛绒玩具“芙崽”倾吐烦恼时,或许未曾想到,人与AI的自然交流正悄然掀起一股实时语音技术革命浪潮,催生出庞大的商业蓝海。

10月31日,由声网与RTE开发者社区共同主办的Convo AI&RTE 2025第十一届实时互联网大会在北京拉开帷幕。会上,声网创始人兼CEO赵斌分享了一组关键数据——

2025年,高达67%的企业将对话式AI智能体置于战略核心,84%的企业计划在未来一年加大相关投入(数据源自Deepgram与Opus Research)。

与之呼应的是,声网对话式AI相关用量在2025年第三季度实现151%的环比飙升,凸显出市场的强烈需求。

声网发布《2025对话式AI发展白皮书》,开启实时语音技术商业新纪元 对话式AI 实时语音技术 声网 RTE开发者社区 第1张

对话式AI融合了大语言模型(LLM)、自动语音识别(ASR)、文字转语音(TTS)及实时互动(RTE)等前沿技术。

以往与AI对话,常给人冰冷“念稿”的机器感,而对话式AI的出现,让AI能像真人般自然、流畅、富有情感地交流。

正如电影《Her》中的Samantha走入现实——主角手中的设备不仅能精准识别语音、文本和图像,还能依据人类的语调、情绪和用语习惯,灵活调整回应方式。

为助力企业与开发者抓住对话式AI的历史性机遇,声网在大会上正式推出了《2025对话式AI发展白皮书》。这份白皮书基于行业调研,结合声网在RTE领域的深厚经验,系统梳理了对话式AI的全景图谱——涵盖技术演进、核心科技、主流方案与业态、质量评估体系、行业实践案例及未来趋势展望。

声网发布《2025对话式AI发展白皮书》,开启实时语音技术商业新纪元 对话式AI 实时语音技术 声网 RTE开发者社区 第2张

除了理论指导,声网还以实际产品推动对话式AI进步。此次发布会,声网推出了一系列对话式AI新品,包括下一代对话式AI引擎、配套开发套件、模型评测平台和编排平台等。

一股对话式AI的蓬勃浪潮,正席卷而来。

对话式AI走进现实

回想一下:你通常在什么情况下唤醒苹果手机中的Siri进行对话?

多数人或许会回答:睡前设定闹钟时。一组直观数据显示:目前仅21%的用户对现有AI对话体验满意,部分服务的用户流失率甚至高到“难以接受”。

事实上,人类并非不愿与AI交谈,问题在于AI不够懂人。本质上,人类对话中仅7%的信息来自语言内容,超过90%的信息感知源于语调、表情和肢体语言等非语言元素。

要让AI实现“类人对话”,企业仍需攻克诸多技术难关。

例如,当前多数对话式AI的端到端延迟普遍超过3秒——而人类正常聊天延迟约400毫秒。这短暂的3秒差距,成了人机交互的一大痛点。商业世界中,仅几秒等待就足以消磨用户耐心。因此,与时间赛跑、突破响应延迟,是对话式AI逼近人类体验的关键壁垒。

除延迟外,对话式AI的另一挑战是赋予AI人类智慧的“内核”。

某些人机交互场景令人共鸣:对话中,AI可能因用户清嗓、键盘声或片刻迟疑而中断,上下文丢失。或在嘈杂派对、展会中,AI常无法聚焦用户真实声音,导致注意力涣散。

这些细微体验,正是人与AI建立信任、情感依赖的核心。用户期待的不仅是一个正确答案机器,更是一个有“人情味”的AI。

对此,声网创始人兼CEO赵斌将对话式AI的技术挑战归纳为:低延迟响应、自然打断、上下文管理、情感理解与表达等。

为解决这些难点,行业主流采用级联模式。该模式像一条分工明确的“流水线”,将语音对话拆解为三个串行步骤(语音转文字ASR—大模型理解文字LLM—文字转语音TTS)。

相比其他模式,级联模式更模块化,开发者可像搭积木般灵活选择各环节优质供应商,以优化成本、提升效果。因此,级联模式成为多数AI客服、智能音箱等应用的技术选择。

以声网为例,其围绕级联模式构建了三类产品形态,覆盖不同客户群。对于希望快速上线的应用开发者,声网推出了对话式AI引擎2.0,作为开箱即用的一站式解决方案,旨在攻克前述对话式AI痛点。

声网发布《2025对话式AI发展白皮书》,开启实时语音技术商业新纪元 对话式AI 实时语音技术 声网 RTE开发者社区 第3张

具体来说,引擎2.0依托全球实时网络,实现端到端高速响应与超低延迟。它还内置智能打断、声纹识别等先进功能,使对话实现智能交互。此外,引擎2.0采用开发者友好设计,支持多种主流大模型,各模块功能可按需选用,能快速集成至多样应用场景。

当然,对于追求灵活选型与深度定制的公司,声网提供了模块化SDK,如语音识别/合成SDK,让开发者自由“搭积木”。而对于已使用声网实时音视频服务的客户,若希望在不改变架构前提下增强AI能力,声网还提供一系列扩展套件,可“插件式”添加对话式AI功能。

通过引擎、SDK和拓展套件这三类产品,声网覆盖了从新手到专家的不同客户,确保所有用户都能在其生态中找到最适合的方案,让对话式AI照进现实。

给对话式AI一把“尺”

无论与人类或AI交流,对话本身都具主观性。但要推动对话式AI长远发展,行业需一套全面、客观的评估框架,犹如为对话式AI划定航行航道。

尽管行业已提出部分评估方法,如任务完成率、词汇错误率等,但这些单点技术指标维度碎片化、局限性明显。现实中,对话式AI的语音、对话等要素复杂,原有评估手段常与实际体验存在巨大鸿沟。

为此,声网在《2025对话式AI发展白皮书》中提出了“三维二轨”评估框架——“三维”考核AI自身能力,如理解、表达、交互能力;“二轨”考核AI的两种方法,包括基准测试和用户导向测试。

声网发布《2025对话式AI发展白皮书》,开启实时语音技术商业新纪元 对话式AI 实时语音技术 声网 RTE开发者社区 第4张

看似抽象,但代入此框架,想象你正在面试一位AI助理。此时,你发出指令:“帮我预定一个适合商务宴请的意大利餐厅”。

理解力强的AI助理能抓取并理解关键词如“今晚”、“商务宴请”、“意大利餐厅”。而理解力弱的助理或许只捕捉到“餐厅”,反手推荐隔壁麦当劳。

接着,表达力强的AI助理会根据指令情绪,以自然愉悦的语调介绍合适餐厅的特色。表达一般的助理则用僵硬播音腔念出长串地址,宛如无情复读机。

当AI助理介绍餐厅时,你突然打断问:“餐厅附近有停车场吗?”

交互能力差的AI助理可能忽略提问,坚持说完介绍。而交互能力强的助理,对话节奏与打断处理出色,会立即停下并查询信息,最后补充:“还需要继续查询菜品吗?”

值得注意的是,此评估框架不仅通过基准测试确保对话式AI基本功扎实,还在硬性指标外融入用户导向测试,让对话式AI获得用户侧主观评价。

如果说“三维二轨”为对话式AI提供了衡量标尺,定义了优质框架与原则,声网并未止步,还基于此框架为开发者提供实用工具。

声网的AI模型评测平台,通过精准定位对话式AI场景核心痛点,打造了一个关键“决策支持系统”。据悉,该平台模拟真实对话交互测试,在全球十大城市节点动态监测并更新数据,直观对比主流ASR、LLM和TTS模型的实时性能。

例如,当开发者基于声网对话式AI引擎构建“AI社交陪伴”应用时,可直接在评测平台上,针对“社交陪伴”场景关注的响应延迟,横向评测不同ASR、LLM、TTS模型在延迟方面的表现,最终选择更匹配业务的模型组合。

随着对话式AI走出概念,在技术路线、产品方案、评估标准和工具等方面快速完善,其注定在更多领域加速落地生根。

对话式AI落地,润物细无声

目前,对话式AI已在智能硬件、情感陪伴、在线教育三大场景中率先实现规模化应用。

2025年被视为AI硬件爆发元年,从“芙崽”为代表的AI陪伴硬件引爆行业,到Ray-ban meta引领的AI眼镜“百镜大战”。热闹的AI硬件中,对话式AI扮演了核心角色——赋予冰冷硬件类人的灵魂与智慧。

声网发布《2025对话式AI发展白皮书》,开启实时语音技术商业新纪元 对话式AI 实时语音技术 声网 RTE开发者社区 第5张

在情感陪伴领域,以星野、Character.AI为代表的AI社交应用中,对话式AI使AI对话从机械应答进化为具记忆力、个性与共情力的社交引擎,让AI真正陪伴人类左右。

在教育领域,对话式AI正掀起教学革命。例如,它让口语陪练更拟人,营造沉浸式语言学习环境;衍生的AI双师(如豆神AI)也促进了教育资源的均衡分配。

种种迹象表明,对话式AI生态正快速构建。你或许好奇,未来的对话式AI还有何想象空间。声网在白皮书中描绘了未来图景。

首先,对话式AI将在多模态交互上实现质的飞跃,实现边听边说、看懂用户表情与手势等功能,使人机交互无限接近人人交互——正如声网发布会上,赵斌演示“AI客服”时,观众难以分辨对话对象是机器还是人类。

其次,未来对话式AI或许不仅是单点、被动响应的工具,而是多智能体协同的“超级助手”。

商业维度上,未来对话式AI可能隐藏更多价值。其形态或更隐秘多元,融入业务流程,成为组织中的数字员工,或作为全新信息入口与服务枢纽。

你亦可大开脑洞:对话式AI未来或化为“数字生命体”——成长阶段,它是人类启蒙的守护者;工作阶段,它化身全能助手;随着人类数据积累,它将进化得更懂你。

结语

最早诞生于60年代的对话式AI,在大模型时代获得类人能力后,才真正步入飞跃期。这一看似简单的技术,长远意义深远。

首先,对话式AI彻底改变了人机沟通底层逻辑,使过去以图形界面(GUI)为主的交互,进化到更符合人类本能的交流方式。此转变将大幅降低AI使用门槛,实现技术普惠与平权。

其次,对话式AI将人类从繁琐任务中解放,让人更专注于创造性、战略性工作。其潜藏的商业可能无限,或催生全新商业模式与业态,不限于当前火热的陪伴类AI原生APP、AI硬件等。

总之,对话式AI不仅代表技术高地,更在改变交互方式、生产关系并驱动经济增长。

声网此次发布会上,创始人兼CEO赵斌表示,截至目前,声网年度服务分钟数首次突破1万亿分钟。这是一个里程碑,标志着RTE技术(实时互动)已成为行业不可或缺的“水电煤”。

当众多技术子集羽翼渐丰,对话式AI已万事俱备,正静候自己的“万亿时刻”。