当前位置:首页 > 科技资讯 > 正文

Synthesia:以AI视频革新商业沟通,估值破百亿

AI 视频平台的发展,见证了特效技术的不断升级,从基础的文本转视频,到动态捕捉、场景生成,技术复杂度呈指数级攀升。然而,在这些炫酷技术背后,一个核心问题常被忽视:这些技术究竟能为企业带来多少实际价值?

当其他 AI 视频平台如 Runway、MagicLight 等争相推出炫酷特效和复杂功能时,Synthesia 却选择了一条不同的道路。这家英国初创公司没有盲目追求技术炫技,而是敏锐地捕捉到了一个最朴实的用户痛点:让视频制作变得像做 PPT 一样简单

近日,Synthesia 的联合创始人兼 CEO Victor Riparbelli 在 YouTube 平台分享了一段视频,讲述了他从怀揣一个疯狂的 AI 视频想法,到历经艰难创立 Synthesia 并将其发展壮大的创业历程。

7年奋斗,两代产品助力ARR突破7亿

Synthesia 由来自伦敦大学学院 (UCL)、斯坦福大学 (Stanford)、慕尼黑工业大学 (TUM) 和剑桥大学的 AI 研究人员和创业者团队于 2017 年创立。主要创始人为:Victor Riparbelli、Steffen Tjerrild、Lourdes Agapito 以及 Matthias Niessner。值得一提的是,Matthias Niessner 和 Lourdes Agapito 是计算机视觉领域的全球顶尖教授。

Synthesia:以AI视频革新商业沟通,估值破百亿 AI视频 商业沟通 Synthesia 深度学习 第1张

作为专注于企业级 AI 视频解决方案的平台,Synthesia 的核心使命是帮助客户以最具参与度和有效性的方式,向客户、员工及合作伙伴传递信息。平台的愿景是让任何会使用 PowerPoint 的人都能轻松制作视频,重新定义了 “通过视频交流” 这一信息传递的高效方式。这一切的起点源于对一个核心问题的洞察:人们并非想 “玩技术”,而是想解决实际问题 —— 在 Synthesia 的场景中,这个问题就是 “轻松制作视频”。

于是 Victor 和联合创始人们决心围绕 AI 视频技术创办一家商业化公司。

但创业初期的挑战远超想象。

2017 年公司成立时,正值人工智能寒冬,技术不成熟导致大量 AI 公司折戟,Synthesia 的愿景被普遍视为 “疯狂”。团队曾被 100 位投资者拒绝,直到向亿万富翁投资者 Mark Cuban 发送了一封冷邮件 —— 他成为唯一认同其未来愿景的人。Roelli 坦言,早期的关键是找到与自己对未来有相似认知的人,而非试图说服怀疑者。

Synthesia:以AI视频革新商业沟通,估值破百亿 AI视频 商业沟通 Synthesia 深度学习 第2张

就这样,有了 Mark Cuban 的支持后,Synthesia 才真正走上正轨。

2020 年夏天,Synthesia 发布了首款商业化产品 STUDIO,目前,该产品已被 60 多万家公司使用,其中财富 500 强企业占比超 60%。

据 Victor 介绍, Synthesia 的软件采用了由 Lourdes Agapito 和 Matthias Niessner 开发的深度学习架构,整个平台都建立在深度学习的基础上——借鉴好莱坞视觉特效中的许多已知流程,并训练深度学习网络进行大规模复制。Synthesia 的系统能够在几分钟内合成逼真的人物头像风格视频,使其能够轻松、快速且可扩展地制作用于商业用途的视频。

从技术上看,Synthesia 的系统使用各种深度学习和计算机视觉技术,包括 GAN(生成对抗网络)。

那么 Synthesia 有何不同?

借助技术平台,Synthesia 将整个视频制作流程简化为一次 API 调用——平均只需 3 分钟即可制作一个视频,而传统制作方式则需要数周时间。企业客户和个人创作者可以无限扩展其制作规模(一个视频大约需要 1 美元),并根据个人用户、公司或员工的需求定制视频内容。

例如在一个例子中 Synthesia 为梅西为百事可乐的乐事系列广告,共制作了 6.5 亿个不同的视频版本。仅在这个项目中,粉丝们就制作了数十万个视频。

Synthesia 平台还提供一系列内置演员,所有客户均可使用,包括每月 30 美元的套餐。这些演员均为真实演员,每次有人与他们合作拍摄视频,他们都会获得报酬。

Synthesia 平台支持 40 种语言。

Synthesia:以AI视频革新商业沟通,估值破百亿 AI视频 商业沟通 Synthesia 深度学习 第3张

到了 2024 年 6 月,Synthesia 2.0 正式推出。

Synthesia 2.0 的核心是推出个人 AI 头像。Synthesia 推出了全球首款 Expressive AI 虚拟形象,它由 EXPRESS-1 模型驱动。这些虚拟形象能够理解自己在说什么以及应该如何表达,并根据脚本的上下文调整语调、面部表情和肢体语言。

许多客户都希望拥有自己的虚拟形象。使用 Synthesia 2.0,客户有两种方式创建个人头像:在工作室使用高清摄像机拍摄的富有表现力的头像;无论在家还是外出,都能在自然背景下使用网络摄像头或手机打造自定义虚拟形象。这些全新虚拟形象在原来已有的网络摄像头服务基础上进行了改进,提供更佳的唇音同步和更自然的声音,并能够以 30 多种语言复制客户的声音。

据 Victor 透露,用户增长的核心在于区分 “真实用户” 与 “尝鲜者”。平台推出首个头像 MVP(最小可行产品)时曾病毒式传播,大量用户因觉得 “有趣酷炫” 而来制作免费演示视频,但留存率极低。

Victor 指出,关键是识别那些因 “反复出现的实际用例” 而来的用户 —— 他们不将平台视频与专业相机视频比较,而是与文本文档对比,对质量和功能的需求更贴合实际场景。正是这群用户支撑起了平台可持续的增长,推动收入从 100 万 ARR 到 300 万 ARR ,再不断翻倍、三倍增长。如今 Synthesia ARR 已经突破 1 亿美元(约合人民币 7 亿元)。

英伟达、字节跳动入股,估值破百亿

今年 1 月份, Synthesia 获得了由 NEA 领投的 1.8 亿英镑(2.26 亿美元)D 轮融资,使得其估值达 21 亿英镑(25.8 亿美元)。Uber 以及 TikTok 母公司字节跳动等公司均是其投资组合公司。Synthesia 还得到了芯片巨头英伟达的支持。

据技术市场情报公司 Dealroom 称,这项投资使 Synthesia 成为英国估值最高的 Gen AI 媒体公司。

值得一提的是,Synthesia 目前没有积极布局并购领域。迄今为止,Synthesia 尚未进行任何收购。

Victor 表示其更倾向于自主开发技术并使用 API 来处理自身未开发的技术。例如与 ElevenLabs 合作开发语音技术并利用和微调各种第三方大型语言模型。

“找到不那么起眼的人一起工作”

随着产品被更多人使用 Synthesia 内部团队也在不断扩大。

目前 Synthesia 的年收入有一半以上来自美国客户而欧洲则占了近一半。

Synthesia 也加大了招聘力度。今年年初聘请了前亚马逊高管彼得·希尔 (Peter Hill) 担任首席技术官。如今该公司在全球拥有 400 多名员工。

“我认为人们经常犯的一个错误是尝试从谷歌、Meta 等大厂挖人但往往那些‘不那么显眼’却充满‘饥饿感’的人才更有潜力——他们可能没在顶级公司任职却在管理优秀开源项目中展现出韧性愿意为初创公司投入全部精力。”