当前位置：首页 > 科技资讯 > 正文

带摄像头的AI耳机：开启多模态交互新纪元

主机测评网
科技资讯
2026-03-10
878

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第1张

仅靠语音，AI难以获取足够的上下文信息

编者按：在AI探索自身形态的过程中，一些选择令人意外。

智能手机上新增的独立AI按键，仿佛为手机注入了新的进化活力。智能眼镜凭借其天然的视听入口优势，正逐渐显露出成为下一代个人终端的潜力。某些专注于特定场景的设备，在某些时刻甚至比功能全面的“全能选手”更加可靠。而那些试图一次性取代手机的激进尝试，却往往在现实中遇冷。

技术的落地，远不止是功能的简单叠加，它更关乎人的使用习惯、场景的适配性，以及对“好用”这一概念的重新诠释。

爱范儿推出“AI器物志”栏目，希望与您一同探讨：AI将如何影响硬件设计，如何重塑人机交互，以及更关键的问题——AI最终会以怎样的形态融入我们的日常生活？

就在今年年底，一家此前鲜为人知的创业公司光帆科技，推出了一款看似“反直觉”的产品：Lightwear AI全感智能套装（以下简称Lightwear）。

简单来说，这是一款智能耳机与手表的组合套装，但其设计细节颇为独特：

首先，每只耳机上都配备了一枚200万像素的摄像头，单耳重量为11g，这是为了保证视觉相关功能的续航；智能手表不仅作为显示终端，还提供了额外的交互输入方式；而该套装的核心智能中枢并非手机，而是一个内置了eSIM和GPS芯片的耳机盒，智能手表可以直接与其连接——

这意味着，Lightwear可以完全脱离手机，独立运作。

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第2张

这种设计理念在行业内可谓前所未有。将摄像头裸露地挂在耳机上，置于耳边，比智能眼镜上的摄像头更挑战大众审美，同时也触及了隐私的敏感地带。

但如果放眼未来5-10年科技与消费电子行业的发展方向，会发现OpenAI、Meta、阿里夸克、理想、苹果等巨头在类似产品定义上已形成共识——而光帆科技率先将这一共识产品化，走在了这些大公司前面。

这个共识就是：AI要真正理解世界，仅靠麦克风是不够的。

共识的另一面是：模型的多模态能力，正在倒逼产品设计去适应模型的需求。

也就是说，无论是光帆这种带摄像头的耳机，还是接受度稍高但仍争议不断的智能眼镜——这些产品形态都是模型能力倒逼出来的，与审美无关。

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第3张

一家源自小米的AI硬件公司

光帆科技创立于2024年10月，创始人董红光曾是小米集团的初创成员之一，工号89。在小米的14年职业生涯中，他以核心角色参与了MIUI、快应用、自研手机、汽车OS等多个重要项目的研发。

据公司官方介绍，其创始团队属于典型的“高P团队”，除小米外，还汇聚了来自华为、字节、阿里、腾讯等企业的资深专家，具备深厚的软硬件及AI开发实力。

更值得一提的是其资本积累的速度。光帆科技在三个月内连续完成两轮融资，累计金额达1.3亿元人民币，投后估值超过5亿元。投资方包括柏睿资本（由宁德时代副董事长李平创办）、韶音、同歌创投（歌尔股份旗下）、清辉投资、鼎晖投资、阿尔法公社、英诺天使等知名基金与机构。

其中的产业资本尤为引人注目，多为音频和高新制造领域的巨头：韶音在骨传导及开放式耳机市场占有超过50%的份额，歌尔是可穿戴设备的ODM龙头企业，清辉投资背后是存储领军企业兆易创新，宁德时代更是不言而喻。

这些产业资本的加入，不仅为这家公司和尚未成熟的产品形态提供了试错空间，也彰显了产业巨头们的前瞻性布局。

摄像头的意义：让AI看见你所见

过去二十年，人机交互的主线一直很清晰：打字、触屏、拍照、上传，然后等待设备回应。尽管设备内置的软件和服务如今功能强大，但交互的逻辑并未改变：你控制设备，设备给你反馈。

然而，近3-5年基于大语言模型的AI新浪潮彻底颠覆了这一逻辑。由于模型能够处理多模态信息，理解图像、声音、文字之间的关联，并具备更接近“人类直觉”的能力，由大模型驱动的AI产品能够更主动地与用户及其所处的数字世界——甚至真实世界——进行交互。

从硅谷的OpenAI、苹果、Meta，到国内各大厂商，搭载摄像头的AI设备已成为共识方向。原因很简单：语音只能捕捉“你所描述的世界”，而加上摄像头，AI才能真正理解“你身处何处”“面前何物”“世界正在发生什么”。

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第4张

遐想中的OpenAI耳机硬件

问题来了：难道每次AI需要理解时，都必须掏出手机吗？摄像头没有更合适的安放之处吗？

现实选择只有两个：戴在头上，或贴在身上。

到2025年底，这两个方向已有无数尝试者、失败者、领先者和落后者。

在贴身设备方面，Humane AI Pin和Rabbit R1曾一度被硅谷誉为“下一代iPhone”，但由于问世过早且体验不佳而草草收场，但这一领域仍不断有新产品推出，比如近期出口转内销的Looki。

人们又想起了十多年前流行的Google Glass和VR头显，将两者结合，造出了新一代智能眼镜。目前，这一品类被硅谷奉为圭臬，且因其能与日常眼镜结合，接受度相对较高。但仍有人认为智能眼镜并不理想，无法真正替代手机。

紧接着，耳机登场了。在手机、穿戴设备、智能眼镜之间，耳机占据了一个微妙的位置：它已被社会默许为可长期佩戴的设备，同时又天然贴近“视”与“听”这两个核心感官。这使得它成为AI感知计算能力的合理载体，也是下一个AI硬件的试验场。

耳机离眼睛和耳朵更近，消费者心智教育已完成，佩戴接受度高。更重要的是，相比眼镜的显眼和沉重（最少40多克），Lightwear耳机更轻（单耳11g），尽管加上摄像头后略显“异物感”，但在社交场合的存在感仍低于眼镜。

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第5张

模型优先：产品逻辑的转变

单纯依赖语音识别的AI耳机市场已趋于饱和，明显进入瓶颈期。据爱范儿观察，目前市面上大多数所谓的AI耳机，定价多在千元以下，主要聚焦于AI翻译场景，功能趋同。

而光帆在Lightwear上的思路与这些普通耳机截然不同。普通耳机似乎被局限在“听觉”范畴，但光帆思考了一个更深层的问题：AI需要更多上下文信息，通过耳机能否实现？

这个问题的答案，根植于AI时代交互方式的根本变革。

从电脑到手机，我们一直处于GUI（图形用户界面）时代，屏幕、按钮、图标缺一不可，因为我们需精准控制每个操作对象。

但生成式AI改变了这一逻辑：交互可完全依赖自然语言，用户给出模糊指令，系统返回虽不精确但可用的结果，高频沟通与反馈变得更重要，精准度反而退居其次——即NUI（自然用户界面）。说和听，成为更自然的交互方式。图形界面变得不再必要。

这种新交互范式，与耳机天然契合：耳机可轻至10g以下，佩戴无负担，续航持久，能全天候在线。相当于人体拥有了一个智能外挂，时刻待命。

但这个智能外挂还缺一样东西：像人类一样接收足够多的信息。而在所有感知维度中，视觉是信息最丰富、最重要的。

因此结论明确——需要给耳机加上摄像头。

在发布会现场，光帆展示了Lightwear感知能力结合的实际应用，覆盖日常生活与工作中的高频需求：

O2O场景：用户唤醒设备问“帮我看下这家怎么样”，耳机通过摄像头识别面前的餐馆招牌，结合GPS定位确认位置，再根据AI积累的个人记忆进行口味比对、推荐附近更优餐厅，并主动取号、智能提醒到号等。
差旅：收到出差短信/邮件后，Lightwear可主动安排日程，发现冲突并解决，智能回复信息，搜索并预订机票酒店，完成最后一公里打车。
购物：用户看到感兴趣的商品只需提问，耳机即可通过视觉识别，在线比价，加入购物车甚至直接下单。
日常提醒：根据日程安排，主动唤醒并提醒用户（如重要纪念日）。

整个过程无需用户打开手机或进入App操作，甚至无需明确说出需求——AI结合视觉与地理信息，自动补全所需上下文。

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第6张

这类设备天生适用于以下场景：你说不清楚的东西（“就这个”“不是，是旁边那个”）；不值得专门掏出手机拍照，或掏出手机会打断“心流”的场景（走路、逛展、炒菜等）。

200万像素足够吗？够，因为照片是给AI看的

若以传统消费电子产品的视角审视Lightwear，槽点确实不少：摄像头外露带来隐私担忧；比普通耳机重，全天佩戴可能不实；社交压力；容易让人联想到Google Glass、AI Pin等失败案例……

但这完全偏离了重点。给耳机加摄像头，是为了提升AI的理解效率。摄像头根本不是为了人眼设计的，其出发点是为模型服务。模型需要更连续、更及时的视觉流，以及更真实的第一人称视角。

这里有个关键设计值得关注：Lightwear的摄像头采用了“阅后即焚”的影像处理机制。

在Lightwear系统中，用户无法以“拍照”为目的命令耳机拍摄照片。这是因为摄像完全服务于AI，用于即时性的视觉上下文理解。照片文件不会在本地或云端保存，可以理解为“用后即焚”。这一设计背后有多重考虑：

首要考虑显然是保护隐私。不保存影像文件，能从根源上杜绝隐私泄露，用户无需担心生活细节被拍下，或在意外中被“偷拍”保存。

同时，不保存照片也能显著优化成本：既然是为AI服务的，画质完全无需达到人眼标准。200万像素对于物体识别、场景理解已足够，且像素越低，处理速度越快、功耗越低，存储和流量成本也越小。目前设备续航达9-15小时，足以实现全天候伴随。

当然，“模型优先、用户靠后”的论断只是我的主观看法。他人包括光帆可能持有不同观点。发布会上董红光强调，AI硬件应“让技术退后一步，让人站在中心”，但实际产品呈现的，至少在我看来，恰恰是技术先行。

然而当下，哪个AI硬件能避免这种矛盾感呢？

在此可以大胆提出一个论断：当下及未来一段时间的AI硬件，都应以模型优先，以满足模型需求为首要出发点进行产品定义。

因为我们远未触及AI模型与电子硬件结合的边界。因此毫无疑问，未来还会看到更多像Lightwear这样，甚至有些像“缝合怪”的产品。

只有通过不断尝试，尽管其中大部分是试错，这些公司才能真正摸清边界，带来更出色的体验。

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第7张

结语

当然，Lightwear是一款即将正式发售的产品。套装价格不菲，我无意过度吹捧，以免造成误解。

发布会上我们体验的是工程样机，涵盖了日程管理、消息提醒转述、差旅预定、叫车、餐厅点评与排号、视觉搜索/商品加购等高频场景，操作流畅。

但由于耳机直连耳机盒（eSIM 4G网络），加之现场网络状况一般，对话时延仍较明显，与电影《Her》中理想化的对话节奏尚有差距。现场工程师透露，工程样机体验约为明年Q1市售版的七八成水平。

但坦白说，体验过后，Lightwear已让我相当满意。我认为OpenAI和苹果筹划中、可能在2026或2027年推出的“带摄像头的AI耳机”，体验未必能比光帆的方案好太多——

这无关产品力或工程能力，而是该产品形态目前的想象空间有限。这些功能谁都能做，而像光帆这样脱胎于小米的中国团队，只会做得更好。

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第8张

若问我如何看待这种形态的AI硬件，我的回答是：高度合理、不够优雅、大概率不是最终形态。

高度合理：因为它精准解决了多模态Agent与硬件结合时的上下文痛点。AI要理解真实世界，不能没有视觉感知。
不够优雅：产品体积大于AirPods，会带来一定社交压力，对普通用户而言，甚至可能成为购买后吃灰的理由。
不是最终形态：目前的Lightwear更像是初步的过渡产品。可以想象成熟产品的模样：摄像头进一步缩小至难以察觉，使整体更接近AirPods——一个被社会广泛接受的产品形态。这方面无需担忧，参考智能眼镜和录音卡片的演进，初期产品都较笨重，随着市场火热和供应链进步，方案会日趋成熟。

此外，Lightwear搭载了自研的AI操作系统Lightware OS，可接入多类大语言模型/多模态模型、MCP、API，具备Phone/Browser Use能力等——因此，即使未来摄像头耳机形态被证伪，光帆的OS也能快速迁移到眼镜或其他载体上。

从AI AirPods，到Meta据传多年前立项的Camerabuds耳机，再到OpenAI邀请前苹果设计传奇Jony Ive合作的神秘新硬件——这些产品的传闻都不约而同地提及了搭载摄像头的耳机方案。这绝非简单巧合，更像是“英雄所见略同”。

带摄像头的AI耳机：开启多模态交互新纪元 AI硬件智能耳机摄像头多模态AI 第9张