当前位置:首页 > 科技资讯 > 正文

苹果新专利:通过唇语识别实现无声操控

为了拯救Vision Pro,苹果再度出手。近日,一则新专利曝光,显示其未来头戴设备将支持唇语读取,用户无需发声,仅凭唇部动作即可接收指令。

苹果新专利:通过唇语识别实现无声操控 苹果 唇语识别 AI眼镜 XR头显 第1张

该专利名为“带有语音输入结构的电子设备”,文件内苹果描述了视觉传感器在佩戴者无法言语时,如何读取唇语以实现语音输入。若此专利能落地,无疑将大幅优化现有头戴设备。

随着小米与阿里相继入局,AI眼镜热潮已至。然而,这类产品在备受追捧的同时,也面临巨大挑战。据VR Vision统计,仅在抖音电商,AI眼镜的平均退货率就高达40%-50%。网友称其为“吃灰神器”,除元器件增多加重佩戴负担外,语音交互也是一大痛点。

苹果新专利:通过唇语识别实现无声操控 苹果 唇语识别 AI眼镜 XR头显 第2张

智能音箱等家庭设备常与语音交互相得益彰,但AI眼镜、XR头显则不然,后者在公共场合使用频繁。

诚然,在AI大模型技术飞速发展的今天,这类智能设备已具备出色的语义识别能力,能准确理解用户意图,配合降噪技术,更能在嘈杂环境中识别指令。然而,真正的痛点在于并非所有人都能克服在公共场合对着空气说话的尴尬。

十年前,马化腾曾言:“我们未将语音助手作为重点发展,此功能看似便捷,实则不然。试想,在众人面前说‘我要去干嘛干嘛’,多么尴尬且不私密。”

苹果新专利:通过唇语识别实现无声操控 苹果 唇语识别 AI眼镜 XR头显 第3张

支持拍摄功能的AI眼镜本就饱受隐私争议,而语音交互更是加剧了用户在公共场合的使用负担。此外,音频信息量虽大,但用户需花费更多时间分析与筛选,且听觉在上下文联想上不如视觉直观,增加了语音交互的复杂度。

那么,难道厂商未意识到语音交互的局限?其实,语音交互是当前最具成本效益的解决方案。但问题在于用户必须发声,而提升ASR(语音识别)、NLP及远场拾音技术将大幅增加成本,进而限制受众。若降低成本,又需面对大声说话带来的社交压力。

苹果新专利:通过唇语识别实现无声操控 苹果 唇语识别 AI眼镜 XR头显 第4张

在此之前,智能眼镜主要通过镜腿触控交互。然而,这种交互方式不符合人体工学,需频繁举手操作,令人疲惫。TWS耳机虽可通过触控交互,但用户很少频繁调整音量或开启降噪。

因此,苹果推出的无声唇语识别模式或成两全其美之策。用户无需发声,仅凭唇部动作即可操控设备,解决了公共场合的交互难题。当前,唇语识别技术已相对成熟,只需搭配AI视觉模型即可实现。

苹果新专利:通过唇语识别实现无声操控 苹果 唇语识别 AI眼镜 XR头显 第5张

通过训练AI模型识别不同语言用户的唇部动作,并在充分预训练后,设备即可准确理解用户指令。一旦解决识别率问题,AI眼镜、XR头显在公共场合的应用障碍或将被清除。

苹果新专利:通过唇语识别实现无声操控 苹果 唇语识别 AI眼镜 XR头显 第6张

一旦用户能无惧使用AI眼镜、XR头显,这类产品或许将从小众尝鲜转为大众消费品。