当前位置:首页 > 科技资讯 > 正文

前谷歌DeepMind与苹果科学家携手创业,Elorian获5000万美元种子轮融资,聚焦视觉推理

在硅谷此起彼伏的AI创业浪潮中,资本的目光始终聚焦于那些拥有深厚技术背景的资深大脑,他们往往是创业成功最昂贵的筹码。

曾于谷歌DeepMind深耕14年的资深研究员Andrew Dai,目前正低调筹建一家名为Elorian的人工智能初创公司。

前谷歌DeepMind与苹果科学家携手创业,Elorian获5000万美元种子轮融资,聚焦视觉推理 视觉推理 多模态模型 AI创业 Elorian 第1张

这家尚不为外界广泛知晓的公司,种子轮融资目标便高达5000万美元,足见其野心。

与Andrew Dai联手创业的,是去年12月刚刚从苹果离职的研究科学家Yinfei Yang。

前谷歌DeepMind与苹果科学家携手创业,Elorian获5000万美元种子轮融资,聚焦视觉推理 视觉推理 多模态模型 AI创业 Elorian 第2张

这两位分别出身谷歌和苹果的技术老兵,正联手攻克大模型领域的下一座堡垒:视觉推理。

领投此轮融资的,极有可能是前CRV普通合伙人Max Gazor新创立的Striker Venture Partners。

若交易达成,这将成为硅谷近期最受瞩目的早期融资案例之一,也再次印证了资本市场对“谷歌系”人才的狂热追捧。

14年磨一剑:从BERT早期到Gemini幕后

在AI研究圈内,Andrew Dai的名字几乎成为“长期主义”的代名词。

与那些在Transformer浪潮爆发后才匆忙入局的创业者不同,Andrew Dai的谷歌工号可追溯至2012年,见证了深度学习的兴起。

这意味着他完整亲历了深度学习从边缘学科跃升为科技核心的整个周期。

在他的LinkedIn履历中,最耀眼的经历莫过于担任Gemini模型预训练数据工作的联合负责人。

前谷歌DeepMind与苹果科学家携手创业,Elorian获5000万美元种子轮融资,聚焦视觉推理 视觉推理 多模态模型 AI创业 Elorian 第3张

Andrew Dai的学术贡献不仅限于此。

他曾与谷歌首席科学家Jeff Dean以及Quoc V. Le(Google Brain的传奇人物)共同撰写过多篇论文。

早在2015年,他发表的一篇关于半监督序列学习的论文,就被认为对后来OpenAI的GPT系列模型产生了深远的启发。

前谷歌DeepMind与苹果科学家携手创业,Elorian获5000万美元种子轮融资,聚焦视觉推理 视觉推理 多模态模型 AI创业 Elorian 第4张

https://proceedings.neurips.cc/paper/2015/file/7137debd45ae4d0ab9aa953017286b20-Paper.pdf

一位熟悉Andrew Dai的人士评价道:“他是语言模型的先驱之一,过去二十年一直专注于预训练相关的研究。他最擅长的,就是如何从海量、嘈杂的数据源中提炼出高质量的‘知识’。”

如果说Andrew Dai代表了谷歌在大数据处理上的暴力美学,那么联合创始人Yinfei Yang则带来了苹果系的精致与多模态视角。

Yinfei Yang此前在苹果机器学习团队担任首席研究科学家,主要参与苹果自研AI模型的开发。

前谷歌DeepMind与苹果科学家携手创业,Elorian获5000万美元种子轮融资,聚焦视觉推理 视觉推理 多模态模型 AI创业 Elorian 第5张

在加入苹果之前,他也曾在Google Research工作过四年,专注于多模态表示学习。

他在图像-文本共嵌入领域的专长,恰好填补了单纯语言模型的感知短板。

视觉推理:不只是“看见”,更要“理解”

Elorian的愿景究竟是什么?

据Andrew Dai透露,Elorian并非要打造另一个ChatGPT,而是致力于构建一个原生多模态模型,能够同时理解并处理文本、图像、视频和音频。

当前多数AI模型均基于文本训练,而后通过“补丁”方式接入视觉能力。

Elorian的愿景则是创造一个天生的“通感者”,从底层架构上融合多种感官。

这类模型不再将图片简单转化为文字标签,而是像人类一样,通过视觉直接理解物理世界的逻辑。

“视觉推理”被公认为通往AGI的必经之路。

Andrew Dai提及,机器人是Elorian技术的潜在应用场景之一,但他强调公司愿景远不止于此。

在硅谷投资人看来,这通常意味着Elorian瞄准了AI智能体的广阔市场——打造一个能像人类一样盯着电脑屏幕、理解图形用户界面、处理退货流程、审核法律文件、操作各类软件的超级助手。

它无需通过API被动接收数据,而是直接像人类一样“看”Excel表格、“听”电话录音,同时“读”懂屏幕上的邮件,并实时做出决策。

这便是Elorian试图构筑的未来图景。

资本的逻辑:为“血统”买单

5000万美元的种子轮融资,若在几年前简直是天方夜谭,但在当今的AI热潮中,却似乎成为顶级团队的“入场券”。

正在与Elorian洽谈领投事宜的Striker Venture Partners,本身也是一家极具话题性的新锐基金。

其创始人Max Gazor曾为老牌风投CRV的合伙人,以眼光独到、投资精准著称。

他于去年10月刚刚自立门户,Elorian很可能成为该基金成立后的首批标志性投资之一。

对于Max Gazor这类投资人而言,他们押注的不仅是技术路线,更是“谷歌DeepMind+苹果”这种稀缺的基因组合。

谷歌带来了大规模训练基础设施的经验,苹果则贡献了将AI落地于具体产品的务实文化。

Elorian的诞生,也折射出大模型战场的转移。

第一阶段战争聚焦于“文本生成”,OpenAI凭借ChatGPT拔得头筹;

第二阶段战争则围绕“多模态理解”与“物理世界交互”展开。

在这一新战场上,无论是Gemini还是GPT,都在疯狂补课视觉能力。

Elorian作为初创公司,若想在巨头夹缝中生存,唯一的筹码便是技术上的代际优势,或在垂直场景(如复杂的视觉Agent)上做到极致。

在硅谷,每一位从巨头出走的顶级研究员,都怀揣着一个“反叛”梦想:用更小的团队、更聚焦的资源,去颠覆老东家庞大而迟缓的官僚体系。

Andrew Dai告别了效力14年的谷歌,Yinfei Yang离开了发布Apple Intelligence的苹果。

他们选择了一条最艰难的路——试图教会机器不仅要“看见”世界,更要“看懂”世界。

这让人想起计算机视觉领域的一句老话:“摄像头只是眼睛,算法才是灵魂。”

而在AI的洪流中,真正稀缺的永远不是算力,而是那些能透过数据迷雾,看清未来方向的眼睛。

参考资料:

https://www.theinformation.com/articles/former-google-apple-researchers-raising-50-million-new-visual-ai-startup