当前位置:首页 > 科技资讯 > 正文

AI创业热潮:谷歌苹果“大脑”联手打造视觉推理新纪元

在硅谷的AI创业热潮中,最昂贵的筹码总是押注在拥有资深经验的“大脑”上。Elorian,一家由前谷歌DeepMind研究员Andrew Dai和苹果研究科学家Yinfei Yang共同创立的AI初创公司,正悄然崛起。

AI创业热潮:谷歌苹果“大脑”联手打造视觉推理新纪元 Elorian 视觉推理 AI创业 硅谷 第1张

这家初出茅庐的公司,种子轮融资目标竟高达5000万美元,旨在解决大模型领域的下一个核心问题:视觉推理。

与Andrew Dai携手的是Yinfei Yang,他于去年12月离开苹果,加入这一创新征程。

AI创业热潮:谷歌苹果“大脑”联手打造视觉推理新纪元 Elorian 视觉推理 AI创业 硅谷 第2张

这两位技术界的老兵,分别来自谷歌和苹果,正致力于解决大模型领域的核心挑战。

领投这轮融资的极有可能是由前CRV普通合伙人Max Gazor创立的Striker Venture Partners。

如果交易达成,这将成为硅谷近期最受瞩目的早期融资之一,也再次印证了资本市场对“谷歌毕业生”的狂热追捧。

从BERT早期到Gemini幕后:14年的深耕

在AI研究圈,Andrew Dai的名字代表着一种“长期主义”。

不同于那些在Transformer浪潮爆发后匆忙入局的创业者,Andrew Dai在谷歌的工号可以追溯到2012年。

他完整经历了深度学习从边缘学科到世界中心的整个周期,并在Gemini模型预训练数据工作中担任联合负责人。

AI创业热潮:谷歌苹果“大脑”联手打造视觉推理新纪元 Elorian 视觉推理 AI创业 硅谷 第3张

在当前的大模型战争中,数据质量和预训练策略被认为是决定模型智商上限的关键因素。

能够在这个核心环节担任负责人,足以证明他在谷歌内部的重量级地位。

Andrew Dai的学术贡献不仅限于此。他曾与谷歌首席科学家Jeff Dean以及Quoc V. Le(Google Brain的传奇人物)共同撰写过多篇论文。

早在2015年,他发表的一篇关于半监督序列学习的论文,被认为对后来OpenAI的GPT系列模型产生了深远的影响。

AI创业热潮:谷歌苹果“大脑”联手打造视觉推理新纪元 Elorian 视觉推理 AI创业 硅谷 第4张

https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf

一位熟悉Andrew Dai的人士评价道:“他是语言模型的先驱之一,过去二十年一直专注于预训练相关的研究。他最擅长的,就是如何从海量、嘈杂的数据源中提炼出高质量的‘知识’。”

如果说Andrew Dai代表了谷歌在大数据处理上的暴力美学,那么联合创始人Yinfei Yang则带来了苹果系的精致与多模态视角。

Yinfei Yang此前在苹果机器学习团队担任首席研究科学家,主要参与苹果自研AI模型的开发。

AI创业热潮:谷歌苹果“大脑”联手打造视觉推理新纪元 Elorian 视觉推理 AI创业 硅谷 第5张

在加入苹果之前,他也曾在Google Research工作过四年,专注于多模态表示学习。

他在图像-文本共嵌入领域的专长,恰好填补了单纯语言模型的感知短板。

视觉推理:不只是“看见”,更要“理解”

未来已来:AI的视觉理解革命

Elorian究竟想做什么?

根据Andrew Dai的说法,Elorian不是要再造一个ChatGPT,而是要构建一个能够“同时理解和处理文本、图像、视频和音频”的原生多模态模型。

当前的AI模型大多是基于文本训练,再通过“补丁”的方式接入视觉能力。

而Elorian的愿景是构建一个天生的“通感者”。这种模型不再是将图片转化为文字标签,而是像人类一样,通过视觉直接感知物理世界的逻辑。

“视觉推理”被认为是通向AGI的必经之路。

Andrew Dai提到,机器人将是Elorian技术的一个潜在应用场景,但他强调公司的愿景远不止于此。

“血统”与资本的逻辑

“入场费”背后的资本游戏

对于Elorian这样的初创公司来说,5000万美元的种子轮融资无疑是一个巨大的数字。但在今天的AI泡沫中,这似乎成了顶级团队的“入场费”。

领投的Striker Venture Partners本身也是一家极具话题性的新锐基金。其创始人Max Gazor曾是老牌风投CRV的合伙人,以眼光毒辣著称。他在去年10月自立门户,而Elorian很可能是该基金成立后的首批标志性赌注之一。

对于Max Gazor这样的投资人来说,他们赌的不仅仅是技术路径,更是“谷歌DeepMind + 苹果”这种稀缺的基因组合。谷歌提供了大规模训练基础设施的经验,而苹果则有着将AI落地到具体产品的务实文化。

“新战场”上的较量

“视觉能力”的补课与突破

Elorian的出现也折射出大模型战场的转移。第一阶段的战争是关于“文本生成”,OpenAI凭借ChatGPT拔得头筹;而第二阶段的战争则是关于“多模态理解”和“物理世界交互”。

“在这个新战场上,”无论是Gemini还是GPT,“都在疯狂补课视觉能力。”Elorian作为一个初创公司想要在巨头的夹缝中生存唯一的筹码就是技术上的代差或在垂直场景(如复杂的视觉Agent)上做到极致。