当前位置:首页 > 科技资讯 > 正文

苹果唇语识别专利曝光,或为Vision Pro及AI眼镜带来交互革命

为了重振Vision Pro的市场表现,苹果公司再次祭出新策略。近日有爆料人士透露,苹果一项新获批的专利显示,其未来的头戴式设备将集成唇语读取功能,用户只需做出唇部动作,无需发声即可传达指令。

苹果唇语识别专利曝光,或为Vision Pro及AI眼镜带来交互革命 Vision Pro 唇语识别 AI眼镜 语音交互 第1张

这份名为“带有语音输入结构的电子设备”的专利文件中,苹果阐述了在用户不便发声的场合,借助内置视觉传感器读取唇语以实现语音输入的方案。若该技术真正落地,无疑将为所有头戴设备领域注入强大动力。

就在小米与阿里相继入局之后,这轮AI眼镜热潮已席卷而来。然而在表面繁荣之下,这类产品实则潜藏危机。据VR Vision统计,仅抖音电商平台上,AI眼镜的平均退货率就高达40%至50%。在网友将其列为“吃灰神器”的诸多原因中,除元器件增多导致佩戴负担加重外,语音交互成为集中被吐槽的痛点。

苹果唇语识别专利曝光,或为Vision Pro及AI眼镜带来交互革命 Vision Pro 唇语识别 AI眼镜 语音交互 第2张

对于智能音箱这类主要活跃在家庭场景的设备,语音交互堪称绝配,但AI眼镜、XR头显则截然不同,其使用场景往往涉及公共空间。诚然,在AI大模型技术跨越式发展的当下,这些智能设备已具备较强的语义理解能力,能精准捕捉用户意图,加之降噪算法的辅助,可在嘈杂环境中分辨出佩戴者的指令。

尽管拾音与语义理解已不成问题,但真正的痛点在于:并非所有人都能克服在公共场合对着空气说话的羞耻感。加之公共环境声场复杂,即便降噪技术再先进,用户仍可能需要提高音量来操控设备。而在公共场合高声喧哗,显然违背公序良俗。更何况,语音交互意味着用户必须发出一定音量的指令,许多人并不希望自己的隐私因此暴露。

十年前,马化腾在谈及腾讯为何未将语音助手作为重点时就曾表示:“我们没有作为重点去做,这个功能看起来方便,其实未必,比如一个人对着手机说我要去干嘛干嘛,好傻,人一多我都不好意思这么说,而且也不私密,宁可多按几下。”

苹果唇语识别专利曝光,或为Vision Pro及AI眼镜带来交互革命 Vision Pro 唇语识别 AI眼镜 语音交互 第3张

要知道,具备拍摄功能的AI眼镜本身已背负巨大的隐私争议,因为并非所有人都能接受随时处于镜头之下。再加上AI眼镜普遍以语音交互为核心,这更给用户在公共场合的使用带来沉重的心理负担。此外,音频所携带的信息量远超图文,但信息量大并不总是优势,因为用户筛选和分析需耗费更多时间,且听觉相较于视觉,在人脑的上下文联想方面更为吃力,这无形中增加了语音交互的认知成本。

那么问题来了:难道AI眼镜、XR头显的厂商不清楚语音交互的缺陷吗?其实答案是,语音交互已是当下性价比最高的方案。但语音交互的一大痛点就是用户必须发出声音,若要强化ASR(语音识别)、NLP自然语义处理及远场拾音,并捕捉用户压低声音的声纹,成本必然大幅上升,进而压缩潜在受众。若降低成本,大声说话带来的社交压力又无法回避。

苹果唇语识别专利曝光,或为Vision Pro及AI眼镜带来交互革命 Vision Pro 唇语识别 AI眼镜 语音交互 第4张

在语音交互普及之前,智能眼镜类产品主要依靠镜腿触控模式。然而在眼镜腿上进行交互并不符合人体工学,其弊端在于需要将手举至头部与眼镜齐平,频繁举手容易导致疲劳。TWS耳机之所以能用触控交互,是因为用户通常不会频繁调整音量或开关降噪,低频场景下的触控操作尚可接受。

在触控交互不适合头戴设备、语音交互又有明显短板的情况下,苹果这一识别唇语的无声输入模式有望成为两全其美的解决方案。用户无需发声,仅凭读取唇部动作即可下达指令,这便化解了公共场合与设备交互的系列痛点。更何况,唇语识别如今已非黑科技,只需搭配成熟的AI视觉模型即可实现。

苹果唇语识别专利曝光,或为Vision Pro及AI眼镜带来交互革命 Vision Pro 唇语识别 AI眼镜 语音交互 第5张

通过向AI模型灌输不同语言使用者说话时的唇部动作,经过充分预训练后,搭载该模型的设备便能准确理解用户所说的内容。只要识别率得到保障,AI眼镜、XR头显在公共场合大规模应用的这块最大绊脚石,便有望被彻底搬开。

苹果唇语识别专利曝光,或为Vision Pro及AI眼镜带来交互革命 Vision Pro 唇语识别 AI眼镜 语音交互 第6张

一旦用户能够毫无顾忌地使用AI眼镜、XR头显,这类产品也就迎来了从小众尝鲜群体专属向大众化消费电子产品转变的契机。