当前位置:首页 > 科技资讯 > 正文

音频赛道的革新:来福电台与AI主播的诞生

撰稿|周鑫雨

访谈整理|钟楚笛

编辑|苏建勋

电影《Her》,2013年上映,成为了焦可心中最爱的影片。

在这部电影中,AI角色Samantha没有面容,没有实体形态,人们只能通过她温柔而沉静的声音感受到她的存在。当Samantha说出,“你最近经历了很多,失去了一部分自我”,男主角不禁潸然泪下。

这一幕深深触动了焦可:“仅仅是声音,就能激发如此强烈的情感共鸣。”

几年后,在《Her》设定的时间——2025年初,焦可,作为百川智能的联合创始人,选择了离职创业,创立了一家专注于AI音频的公司——来福电台。

音频赛道的革新:来福电台与AI主播的诞生 AI音频 来福电台 AI主播 情感链接 第1张

在创业的初期,音频领域充满了争议。Google在2023年7月推出的知识库NotebookLM,能够将用户的研究资料转化为10至20分钟的音频内容,这一产品为AI播客领域带来了无限想象。

然而,在国内音频领域,成绩却不尽如人意。头部播客产品小宇宙在2024年初的月活跃用户仅为600万左右,远不及长视频平台。

在融资过程中,焦可也面临了诸多质疑:音频传递信息的效率远不如视频,其市场天花板相对较低。

面对这些质疑,焦可花了30多分钟进行解释,从《Her》、《2001:太空漫游》聊到小宇宙、豆包。对他而言,坚持做音频的理由有很多:

由于生产成本高,国内音频内容的供给量极少,而用户每天拥有大量的“耳朵时间”;

如今偏精品化的音频内容供给,无法满足不同用户个性化的音频需求。

更重要的是,相较于视频和文字,音频是人类最自然的交互方式,具有强烈的陪伴属性

他坚信,要让音频发挥最大优势,离不开AI的支持。

一方面,语音理解和生成技术不仅能解决供给问题,还能在交互中与用户建立情感联系;

另一方面,AI开始洞察和理解用户的喜好。

恰好,语音是生产信息效率最高的交互方式,用户能通过语音交互产生足够多的Long Context(长上下文)。基于这些长上下文,AI能够总结用户偏好,并将符合的音频内容推荐给用户。

音频赛道的革新:来福电台与AI主播的诞生 AI音频 来福电台 AI主播 情感链接 第2张

这套非共识的逻辑虽然并未被所有人接受,但也吸引了一些投资人,如红杉中国的沈南鹏。从立项到过会,红杉仅用了不到一周的时间。

2025年下半年,“来福电台”完成了由达晨领投、红杉中国跟投的第二轮融资,总金额达到1000多万美金。

但焦可的初心远不止于此。他要创造“人”,即AI主播。

在互联网时代,焦可曾负责过百度音乐服务产品“MP3搜索”,也创办过ToC金融平台,并在中东负责过ToG项目。到了AI时代,他开始思考:什么形态的产品能不同于互联网?

他的答案是:互联网时代解决的是连接效率问题,而AI时代解决的是生产力问题。

因此,“工具”和“平台”都是互联网时代的产物,“人”,才是独属AI时代的产品形态。

“来福电台”正是基于这一逻辑运作的。

焦可告诉我们,“来福电台”目前共有15位中文AI主播和2位英文主播。他们风格各异,主持不同的频道,还能记住听众的偏好。

“你会和主播们产生连接。就像听电台节目一样,如果主播换人了,你会不太习惯。”为了让用户感受到“人”的存在,焦可设计了一个占了大半屏幕的球,随着AI主播说话的节奏跃动。

音频赛道的革新:来福电台与AI主播的诞生 AI音频 来福电台 AI主播 情感链接 第3张

打开“来福电台”,用户可以看到喜欢的AI主播已经制作好的内容,随时等待被收听。用户也可以随时打断节目,提出问题、加入讨论或寻求情感陪伴。

在焦可看来,这就是Samantha的雏形。

音频赛道的革新:来福电台与AI主播的诞生 AI音频 来福电台 AI主播 情感链接 第4张

我做的不是AI播客,而是造“主播”

智能涌现:

你怎么定义来福?很多人说这是一款“AI播客”。

焦可:

我不认为自己做的是AI播客平台。

来福现在有15位我们定义的中文AI主播和两位英文AI主播。每个“人”的风格都不同。经常有用户在使用产品的过程中点名某一位主播。

来福非常强调人的属性。我们其实是在造“人”,造的是AI主播。

智能涌现:

小川(百川智能创始人兼CEO)也说要“造人”。

焦可:

我们在这方面有很大的共识。

当年轰轰烈烈的互联网医疗最后都没有开花结果。原因在于互联网革命本质上是生产关系的革命,解决的是效率的问题而不是生产力的问题。

但中国最大的问题是医生只有440万。好医生更少。供给严重不足。

年初我和小川在他家楼下聊了很多次。他当时就说想做AI医生。为什么我们信AI医疗?因为AI的本质是生产力革命。用AI造出医生就能从根本上解决供给问题。

智能涌现:

音频赛道的问题也是供给问题吗?

焦可:

是。前段时间我看到有人发帖说人类播客已经这么多了为什么我还要听AI播客?其实人做音频的成本非常高甚至超过视频制作。

视频就算主播有口音周围环境很嘈杂你后期可以配字幕不影响观看但音频只能听所以对录音质量的要求很高你需要一个录音棚再不济也要配个麦克风后期剪辑还要剪掉口癖停顿重复。

人类生产的音频量是有限的。比如小宇宙一年大概有50万集节目平均每天1千多集新节目。人类生产的视频每天有大几千万。都没有人嫌AI视频多为啥觉得AI音频多?

智能涌现:

供给虽然少但用户有那么多听音频的需求吗?

焦可:

一个人每天都有很多“耳朵时间”比如上下班通勤、健身跑步、做家务、睡前时间。

德勤发布过一份报告除去音乐世界范围内音频听众大概有16亿而且音频是高频刚需起码用户每两天就要听一次。

智能涌现:

现在AI应用主流的方向有两个一个是工具一个是平台这都不是你想做的产品形态?

焦可:

平台经济是互联网的产品形态工具型产品其实是平台服务的一部分比如服务创作者和消费者双端的平台平台为生产者提供创作工具工具生产的内容再供给消费者。

现在很多AI产品看上去还是一个平台或者工具很容易落到大厂的射程里。

AI时代真正的产品形态应该是“人”应该是科学家、医生、主播这是互联网时代不具备的但AI可以做到的产品形态。

智能涌现:

造出来的“人”是什么产品形态?

焦可:

《Her》这部电影就是个很好的产品经理因为它定义了一个产品如何去和用户交互。

最开始Samantha和男主的交互是主动帮他处理邮件后续他们建立感情不是通过男主的主动chat而是一起玩游戏搭积木大家一起做成一件事才是真正的陪伴。...