当前位置:首页 > 科技资讯 > 正文

AI驱动浏览器革命:Chrome领跑,Safari停滞,苹果赌注Siri重生

在Chrome市场保卫战告捷后,谷歌宣布对其Chrome浏览器实施了自2008年推出以来规模最大的一次革新。

此次升级的重心在于深度融合了Gemini AI能力,使Chrome从纯粹的网页浏览工具转型为一个智能化的信息获取与处理中枢。如今用户可直接在地址栏进行自然语言对话,Chrome能智能解析用户意图,并提供相关的搜索结果、网页概要或直接解答问题。这宣告了浏览器行业正式迈入AI纪元,几乎所有主要浏览器厂商都在争先恐后地推出类似功能。

Chrome于2008年9月2日正式发布,而苹果的Safari浏览器则首次于2003年1月7日在Macworld Conference & Expo上亮相,并于同年6月23日正式推出,两者可谓是同一时代的产物。然而十七年过去,当Chrome已完成向AI浏览器的华丽蜕变时,Safari却似乎被苹果遗弃在AI革命的洪流之外。

目前Safari与AI仅有的一点关联,是用户可通过Siri语音命令来开启Safari中的特定页面或执行搜索。这种交互方式类似于苹果在2024年WWDC上演示的MCP(Model Context Protocol)技术的简化版,允许不同应用间进行有限的数据交换和功能调用。

但这种集成程度与Chrome内置的Gemini AI功能相比,简直是天壤之别。用户仍需先唤醒Siri,然后说出具体指令,Siri再调起Safari执行操作,整个流程不仅繁琐,而且缺乏真正的智能体验。

整个浏览器行业正经历一场前所未有的AI化变革。微软的Edge浏览器早在2023年就集成了基于GPT-4的Copilot功能,用户可直接在侧边栏与AI助手对话,获取网页内容摘要、翻译服务或进行深入问答。Mozilla也在Firefox中引入了AI驱动的翻译和内容推荐功能。甚至一些新兴浏览器如Arc、Brave等都在积极探索AI集成的可能性。

在中国市场同样如此,阿里巴巴直接打造了融合网盘、深度搜索、图文生成的夸克浏览器;腾讯则将智能体QBot整合进QQ浏览器,通过智能体满足用户多样需求;360则一反常态,推出了仅有一个对话框的纳米浏览器,用户只需输入文字指令,AI便能完成操作。

行业共识是,未来的浏览器不再仅是网页显示工具,而应成为用户与互联网信息交互的智能中介。

然而苹果却选择了一条完全不同的路径。

A

苹果正在内部开发一项名为“世界知识答案”(World Knowledge Answers)的AI搜索服务。该服务旨在提供比Google搜索更智能的信息检索与问答功能,能够理解复杂的自然语言查询并给出精准、相关的答案。但出人意料的是,这项服务并未优先赋能Safari浏览器,而是被深度集成到Siri语音助手中。

苹果的世界知识答案系统构建在一个全新的三层技术架构上。

第一层是规划组件(Planner),负责解析和理解用户的语音或文本指令,该组件基于苹果自研的Foundation Models框架打造。苹果在机器学习研究报告中透露,他们开发了一个约30亿参数的设备端基础模型,专门针对iPhone、iPad和Mac的硬件特性进行了深度优化。该模型采用了transformer架构的变体,但在注意力机制和前馈网络结构上进行了创新改进,使其在移动设备有限的计算资源下能实现接近GPT-3.5的理解能力。

第二层是搜索组件(Search),这是世界知识答案系统的核心技术创新。与传统搜索引擎不同,该组件不仅能扫描互联网信息,还能深度融合用户的个人数据,包括邮件、短信、日历、照片等私人信息。

苹果为此开发了一套名为私有云计算(Private Cloud Compute)的技术架构,对数据进行端到端加密,确保用户数据在传输和处理过程中始终处于加密状态,服务器无法获取用户明文信息。

第三层是摘要组件(Summarizer),负责将搜索到的信息整合为用户可理解的自然语言回答。这一组件的技术实现尤为复杂,需处理多模态信息融合,包括文本、图片、视频及本地兴趣点信息。苹果为此训练了专门的视觉模型,设备端版本拥有3亿参数,云端版本达10亿参数,能理解并描述图像内容,并将其与文本信息进行语义对齐。

为提升体验,苹果还开发了一套名为自适应推理的技术,能根据查询复杂程度动态选择使用设备端模型或云端模型。简单查询如天气、日程安排等可直接在设备上处理,复杂的知识性问题则调用云端大型模型。这种混合推理架构不仅提升了响应速度,还有效控制了云端计算成本。

不仅如此,苹果的世界知识答案系统还能处理多模态数据,可同时理解和处理文本、语音、图像和视频内容。例如,你拍摄了一张餐厅菜单的照片,然后询问这家餐厅的招牌菜营养价值如何,系统能识别图片中的菜品信息,结合网络搜索到的营养数据,提供综合性回答。

自2011年Siri首次亮相以来,这个语音助手一直因功能有限、理解能力差、仅能处理简单日程安排、天气查询或基础设备控制指令而备受用户诟病。相比之下,Google Assistant、Amazon Alexa甚至后来者如ChatGPT的语音功能都展现了更强的智能化水平。苹果显然意识到了这一差距,并决定通过世界知识答案服务彻底改变Siri的定位。

苹果的目标很明确,即把Siri从一个偶尔应付简单指令的语音助手,彻底改造为一个类似ChatGPT的全能信息与服务中心。这意味着未来的Siri不仅能回答复杂的知识性问题,还能进行多轮对话、理解上下文、执行复杂任务链,甚至可能具备一定的推理和创造能力。

AI驱动浏览器革命:Chrome领跑,Safari停滞,苹果赌注Siri重生 AI浏览器集成  Safari落伍 Siri智能化 苹果硬件升级 第1张

用户将能够通过自然语言与Siri进行深度交互,获取信息、完成工作、娱乐休闲,而无需再依赖传统的应用程序界面。这种战略选择反映了苹果对未来人机交互模式的独到见解。在苹果看来,传统的图形用户界面虽直观易用,但在AI时代可能成为效率瓶颈。

用户需要打开浏览器、输入搜索词、浏览结果页面、点击链接、阅读内容,这整个流程虽已习以为常,但实则包含大量冗余操作。而语音交互则可大幅简化这一过程,用户只需说出需求,AI助手便能直接提供答案或完成任务。

B

然而,苹果要实现这一宏伟蓝图,硬件至关重要。AI模型的运行需大量计算资源,特别是大型语言模型往往需要数十GB甚至上百GB的内存空间,以及强大的并行计算能力。虽苹果可依赖云端服务处理部分计算任务,但为保护用户隐私和提供流畅交互体验,大部分AI功能都需在设备本地运行。

这对iPhone的芯片性能提出了极高要求。iPhone 16系列搭载的A18 Pro芯片虽性能强劲,但要支撑苹果Apple Intelligence的完整愿景仍存差距。

以最基本的内存和带宽为例,iPhone 16 Pro系列配备8GB LPDDR5内存。对于运行大型语言模型而言,这样的配置显然不足。一个参数量约30亿的苹果Foundation Models,仅模型权重就需占用约6GB的内存空间,更不用说运行时的中间计算结果和系统开销。

因此iPhone 17 Pro系列将全系标配12GB运行内存,彻底告别前代Pro系列8GB的配置,而iPhone 17基础版则维持8GB内存配置。

苹果在芯片设计方面还面临功耗控制的挑战。AI计算通常是高强度的并行运算,会产生大量热量并快速消耗电池电量。虽先进制程工艺能在一定程度上改善能效比,但要在智能手机这样的小型设备中实现持续的高性能AI计算,仍需在芯片架构设计上进行创新。

iPhone 17 Pro系列将首次配备VC均热板散热技术,进一步提升A19 Pro芯片的性能表现,凭借全新芯片和升级的散热设计,A19 Pro的CPU和GPU的持续性能比iPhone 16机型中的A18 Pro最高提升40%。

AI驱动浏览器革命:Chrome领跑,Safari停滞,苹果赌注Siri重生 AI浏览器集成  Safari落伍 Siri智能化 苹果硬件升级 第2张

除了硬件,苹果在9月初已与谷歌达成正式协议,将评估并测试谷歌开发的Gemini模型来增强Siri的功能。据爆料,谷歌将为苹果提供一个基于Gemini模型开发的摘要器,以凝练用户数据,减少数据处理压力,该模型将运行在苹果自有的私有云计算服务器上。

谷歌已向苹果交付了该技术,双方正合作进行微调与测试。但苹果将继续使用自研的苹果基础模型来处理用户本地数据搜索。

C

从市场竞争视角看,苹果的这一战略选择既有机遇也有风险。机遇在于,若苹果能成功将Siri打造成真正智能的AI助手,将为其生态系统带来巨大竞争优势。用户一旦习惯通过语音与设备自然交互,便很难再回到传统的触屏操作模式。这种用户粘性将进一步巩固苹果在高端智能手机市场的地位。

但风险同样不容小觑。在苹果专注于Siri开发的同时,Google Chrome、Microsoft Edge等浏览器正快速演进,它们的AI功能可能会吸引更多用户,特别是那些重度依赖网络浏览的用户群体。如果Safari在AI功能上长期落后,可能会影响苹果设备在企业和专业用户中的竞争力。

从用户体验视角看,苹果的选择体现了其对简洁性和易用性的一贯追求。相比于在浏览器中集成复杂的AI功能,通过语音助手提供智能服务确实更符合苹果让技术变得简单的设计理念。用户无需学习新的操作方式,只需像与人对话一样与设备交流即可。这种自然的交互方式特别适合对技术不太熟悉的用户群体,有助于扩大AI技术的普及范围。

AI驱动浏览器革命:Chrome领跑,Safari停滞,苹果赌注Siri重生 AI浏览器集成  Safari落伍 Siri智能化 苹果硬件升级 第3张

然而,语音交互也有其局限。在嘈杂环境中,语音识别准确率会显著下降。在需保持安静的场合,用户可能不便使用语音功能。此外,对于一些复杂任务,如编辑文档、处理图片或进行精确数据分析,语音指令往往不如直接操作高效。

苹果需考虑如何在保持语音交互优势的同时,为用户提供必要的图形界面支持。从生态系统视角看,苹果的战略选择可能会对整个应用开发生态产生深远影响。如果Siri真的成为用户获取信息和服务的主要入口,那么传统的应用程序可能需要重新设计其交互模式。开发者需考虑如何让自己的应用更好地与Siri集成,提供语音友好的功能接口。这可能会催生一批新的开发工具和框架,同时也会淘汰一些不适应新交互模式的应用。