当前位置:首页 > 科技资讯 > 正文

AI重塑交互革命:搜狗输入法20.0版本开启大模型驱动新纪元

在人工智能奔涌的浪潮中,传统输入法这一互联网基础设施正迎来一场“推倒重来”的深层次变革。

1月27日,坐拥6亿日活跃用户的国民级软件搜狗输入法正式宣布开启全面AI化转型。在全新迭代的20.0 AI大版本中,搜狗集中展示了其在AI语音、AI翻译及AI打字三大核心模型上的深度进化与能力升级。

在文字输入维度,新版本实现了海量词库的指数级扩容,并显著增强了对用户意图及上下文逻辑的理解力。值得关注的是,搜狗还深耕垂类领域,为医疗、法律等专业群体量身打造了AI定制化服务,例如专业术语的闪电输入、法律条文及药典说明的即时查阅等功能。而在翻译交互上,新版本支持超过30种语言的即时互译,涵盖了文本与语音的双重交互模式。

AI语音技术无疑是此次大版本升级的核心。依托自研的语音大模型,20.0版本在识别流畅度、整体准确率以及复杂方言的兼容性上均取得了质的飞跃。此外,新版本还重磅推出了“口语转书面语”及易混音智能修正功能,针对语音输入中常见的“的地得”、“他她它”等痛点问题,提供了精准的候选与自动替换方案。

AI重塑交互革命:搜狗输入法20.0版本开启大模型驱动新纪元 搜狗输入法  AI语音大模型 交互革新 智能办公 第1张

语音输入之所以被提升至战略高度,是因为它正迅速由辅助手段演变为互联网交互的主流形态。腾讯搜狗输入法大模型产品负责人柴宝全在受访时透露,搜狗AI用户规模已突破亿级大关,日均语音请求接近20亿次,且年轻用户群体占比极高。

回望互联网输入法发展的二十年,语音输入堪称最具颠覆性的交互革新。过往语音输入往往受限于方言识别差、同音词干扰等问题,用户需频繁手动干预。但在大语言模型加持下,AI具备了精准的上下文洞察力,能主动推演用户意图,足以胜任日常社交乃至专业办公场景。

放眼全球市场,高效语音输入产品已展露锋芒,如新加坡的Typeless及硅谷团队打造的Wispr Flow。它们聚焦高净值办公人群,主打生产力效率。Wispr Flow官方数据显示,其输入效率可达传统打字的3至4倍,并在80%的场景下实现无需人工二次修改的精准编辑。

AI重塑交互革命:搜狗输入法20.0版本开启大模型驱动新纪元 搜狗输入法  AI语音大模型 交互革新 智能办公 第2张

Wispr Flow的功能介绍 图片来源:Wispr Flow官网

在国内市场,来自武汉的创业团队也推出了端侧优先的AI语音输入工具“闪电说”。该产品利用本地模型实现毫秒级识别,能智能过滤口语化赘余,实现4倍于键盘的输入效率。由于数据在本地端处理,极大地增强了隐私安全保障。

互联网巨头亦在全速竞逐语音赛道。除搜狗外,微信输入法、字节跳动的豆包输入法以及智谱AI推出的输入产品,均将语音识别作为核心标签。相比海外SaaS模式,国内大厂更倾向于依托自身庞大的生态体系,提供更加深度的跨应用联动体验与流量闭环。

作为互联网行为的“第一入口”,输入法正被各大科技巨头重新审视。其背后的战略逻辑在于,它天然承载着海量的用户意图数据且横跨全场景App,被视为AI Agent(智能体)的雏形。腾讯此前尝试将输入法与AI搜索深度整合,已显著提升了用户的使用频次与粘性。

然而,现阶段的语音输入尚未触及终结形态。柴宝全指出,尽管语音交互增长势头强劲,但在硬件设备发生颠覆性变革之前,键盘打字依然是不可或缺的核心能力。用户的最终目的是获取最优的输出结果,语音是重要的路径,但非唯一选项。

“如Wispr Flow这类产品是否已是最终形态?目前看仍需时间验证。就像AI编程虽然在弱化键盘依赖,但并不代表键盘会消亡。”柴宝全认为,输入法的演化进程才刚刚拉开序幕,远未到仅靠一个麦克风就能解决所有问题的终极阶段。

但语音交互的进化无疑充满想象空间。现阶段搜狗输入法仍聚焦于极致的“快”与“准”。针对静谧办公环境或驾驶等特殊场景,新版本已大幅优化了轻声输入的识别精度。

“从2011年至今,语音输入完成了‘所听即所得’的上半场进化。而下半场的主题将是角色转型,旨在端到端地实现用户的个性化表达与创作需求,这正是我们未来的努力方向。”柴宝全总结道。