当前位置:首页 > 科技资讯 > 正文

廖谦:AIGC多面手的创业之路,打造多模态营销Agent

文|邓咏仪

编辑|苏建勋

在人工智能生成内容(AIGC)领域,廖谦是国内少有的全能型人才。他亲手打造过收入突破千万美金的爆款产品,并在产品研发、商业化落地及全球市场拓展等方面积累了丰富经验。

他的职业轨迹与技术变革节点高度同步:早期在腾讯云,他参与了首个面向消费者的换脸产品开发,该产品上线十余天便实现千万日活跃用户;

2022年Midjourney爆红时,他已是字节跳动内部最早探索多模态技术的成员之一,从零到一设计了火山引擎流量榜首产品“智能创作云”,为数千家中小商家提供营销自动化服务,并在剪映发起出海项目Pippit,如今月活用户已突破百万。

2024年初,Sora的发布让廖谦意识到多模态的“ChatGPT时刻”或许临近。他随即加入多模态明星初创企业生数科技,带领Vidu产品、研发、营销、运营的上百人团队,伴随公司从冷启动步入千万美金收入阶段。

与廖谦共事过的人形容他“狼性十足、行动迅猛”。正因如此,当他在2024年8月决定创立“极致上下文”(Apex Context)时,迅速引发了投资人的争抢。

廖谦透露,融资PPT尚未完成,仅在半个月内便敲定了数百万美金的首轮融资。本轮投资由硅谷美元基金HT investment与BV百度风投联合领投。HT investment是一家源自硅谷、布局全球的新生代美元基金,专注于AI驱动的科技与社交娱乐领域投资。

9月末,Sora App正式发布,他再次感受到技术变革带来的震撼。“那晚我直冒冷汗。”他坦言,当时正与团队加班,看到Sora上新后,立即取消了次日所有会议,组织全员评测Sora。

但很快,压力转化为动力。不同的是,他已不再专注于基础模型产品,而是转型为“造船者”。

“在这个时刻,应该更冒险、更激进。”这是廖谦创立“极致上下文”以来的深刻体会。

这份笃定源于他在生数科技的历练。2024年,作为平台方,他内部组建的TEP(人才交换平台)团队处理了上千笔企业级AIGC需求,发现一个核心痛点:企业并不需要复杂的AI工具,他们渴望的是“告诉AI我要什么,直接给我成品”。

多模态底层模型仍在快速演进,但落地鸿沟依然显著。

“传统营销视频制作流程繁琐且成本高昂。”廖谦解释道,“企业其实不愿学习复杂工具,他们希望像委托广告公司一样,但成本能降低十倍,速度能提升百倍。”

“极致上下文”打造的首款产品并非视频生成工具,而是一个营销Agent——前端通过多模态交互理解企业品牌与需求,后端整合各类AI模型能力,直接交付成品视频。

目前,团队正在开发产品原型,后续计划率先推向海外市场。

廖谦认为,中国在AI视频领域具有独特优势:短视频生态领先全球1-2年,国内对视频落地的探索与理解更深。“这套经验完全可以复制到海外,无论是产品创新还是用户增长。”他说,这也是他选择从全球市场切入,而非仅服务国内的原因。

未来,廖谦希望将公司打造成新时代的“AI表达系统”。但在此之前,他计划从垂直Agent起步,逐步拓展至教育、办公等更多场景。

为何不做通用Agent?廖谦的答案很务实:“移动互联网早期,大家也想做超级应用,但最终胜出的是美团、滴滴等垂直场景。AI Agent亦然,现在应做这个时代该做的事——找到投资回报最清晰的垂直场景。”他说。

廖谦:AIGC多面手的创业之路,打造多模态营销Agent AIGC  多模态 营销Agent 创业 第1张

廖谦

用户不需要AI工具,需要直接交付

《智能涌现》:你的经历非常丰富,曾在腾讯、字节就职,后来加入生数科技,这背后的思考是什么?

廖谦:我2015年从西安电子科技大学硕士毕业,专业是计算机视觉。毕业后在腾讯工作六年,前两年在天美工作室从事开发,2017年转岗腾讯云担任产品经理,主要负责AI人脸、人体识别相关产品的落地,如智慧城市、智慧交通,从产品设计到实际部署均有涉足。

2019年我便开始接触AIGC——当时主要基于GAN的AI换脸技术。我曾服务过一个叫“她拍”的客户,他们利用腾讯的换脸技术开发了一款小程序,逻辑类似后来的妙鸭相机,但体验更佳。

他们为下沉市场女性用户提供了大量模板,让用户能穿戴婚纱、拍摄各类写真,上线十几天日活便突破千万,跻身当时微信小程序排行榜前十。这段经历让我真切体会到算法技术如何引爆C端用户价值。

因此2021年,我决定转向应用层,加入了字节跳动的火山引擎,当时火山引擎刚刚成立。我从零到一搭建了“智能创作云”团队,英文名即AIGC。

但那个时代的AIGC与现今截然不同——我们做的是文字转视频,并非通过生成方式,而是利用NLP理解语义后,匹配素材库中已标注的图片视频,再拼接、添加背景音乐和字幕生成视频。该产品迅速成为2022年火山引擎流量最高的产品,主要服务于B端营销内容创作。

《智能涌现》:之后你去了剪映?

廖谦:是的,2023年至2024年在剪映,我在内部发起了一个从零到一的新项目,专门针对海外商家,构建AI内容生产与分发平台——也就是后来上线的Pippit。

简而言之,该平台为海外商家提供从创意生成、视频制作到发布及数据反馈的全链路闭环服务。

发起此项目是因为在智能创作云时期,我积累了丰富的国内生活服务和电商用户认知。

我发现,国内AIGC产品在用户认知和产品成熟度上,实际领先海外两到三年。在智能创作云阶段,我们进行了大量类似探索:从内容创意到一键制作——当时的一键制作采用混剪思路——再到分发,用户可绑定抖音号,一次性将刚制作的百个视频分发至百个账号,随后回收数据反馈。

这套方法论具有普适性,将国内经验移植海外后效果显著,产出的视频在TikTok、INS上表现良好,目前Pippit月活已超百万。

《智能涌现》:为何选择在2024年8月这个时间点加入生数科技?

廖谦:Sora的发布是关键节点。2024年初Sora首次亮相时仅是演示版,尚未正式发布,大厂的跟进速度也未如后来迅猛。

当时生数科技是国内最早跟进的企业之一,4月便发布了对标Sora的演示,并于上半年推出了Vidu首版。体验后我认为其能力强劲,觉得这是绝佳机会,于是加入了生数。

生数团队源自清华,技术实力雄厚,但当时在产品和商业化方面需要有人配合。我恰好懂技术、产品与研发,能够较好地协助他们。

在生数一年间,我们从零起步发展至全球数千万用户,今年收入达数千万美金。

《智能涌现》:在生数期间,哪些经历对你后续创业想法影响较大?

廖谦:在生数时,我们常直接接到甲方需求,包括品牌TVC、企业宣传片及电商商品视频,他们希望我们直接交付完整成片。

当时市面上的AI工具平台,如Vidu和可灵,仅能生成几秒片段,真正交付成片还涉及诸多后端环节。

为此,我在内部组建了内容服务团队TEP(人才交换平台),核心工作是承接这些甲方定制需求,同时连接生态内的创作者,让他们利用AI工具输出成片。

我们处理了上千笔定制需求,这让我强烈感受到其中存在的创业机遇。

许多用户不愿使用市面AI标品工具,原因一是这些工具无法与其现有业务流程无缝结合,二是对业务人员而言,他们非专业创作者,使用AI工具难度较大。因此,他们更愿为端到端、直接交付结果的解决方案付费,且预算相对充足。

《智能涌现》:技术达到创业拐点,你的定义是什么?

廖谦:效果与成本综合达到可商业化水平。若效果佳但生成视频成本高达万元,则不可行。

多模态模型在一年发展中成本已有所下降。AI生成视频相较传统制作,成本可降至十分之一。

效果层面,推理能力是关键技术节点。直至2024年9月ChatGPT o1发布,我才认为大模型落地千行百业成为优化问题,而非可行性问题。

另一拐点是多模态模型一致性提升。此前AI视频模型商业化应用的瓶颈在于一致性,例如产品视频中产品画面变动,这对品牌而言难以接受。

以往解决一致性问题极为复杂,需在图片环节进行大量生图或PS处理,这部分工作量占70%,之后再图生视频。

在Vidu,我们去年11月推出参考生视频1.5版,能直接保持主体信息在视频中的稳定一致,但当时清晰度不足;至上半年Vidu Q1版本发布时,画质提升,一致性已大幅改善。

包括近期Google的Nano Banana爆红,可直接灵活编辑图片元素,保持主体连续一致。可见,一致性问题在生图与生视频环节均已出现优质解决方案。

廖谦:AIGC多面手的创业之路,打造多模态营销Agent AIGC  多模态 营销Agent 创业 第2张

先从营销Agent做起,服务有表达诉求的人

《智能涌现》:为何公司将名称定为“极致上下文”?

廖谦:上下文在AI时代至关重要。从产品角度,优秀Agent需深度理解用户上下文;从管理角度,我希望团队加强上下文交流,即“更多上下文,更少控制”。

《智能涌现》:这也是字节早期价值观之一吧。

廖谦:我深受腾讯与字节影响。

《智能涌现》:极致上下文具体从事什么业务?

廖谦:我们计划先从信息表达的生产端切入,聚焦生产力信息,服务有生产力信息表达需求的人群。抽象而言,即服务有表达欲望与诉求但缺乏表达能力的群体。

《智能涌现》:缺乏表达能力指什么?

廖谦:当前信息表达形式多样,包括文字、图像、视频。视频最难,现有视频表达流程需需求方提出需求,再寻找制作方完成。

制作方可能为个人(如创作者、影响者)或团队(内部制作团队或外部代理团队)。制作方需使用大量工具——相机拍摄,PR、PS、剪映剪辑,甚至后期配音工具等。

我们的思路是整合这些工具与环节,直接为需求方生成最终成片,提供端到端交付服务。换言之,我们交付服务,而非工具。

《智能涌现》:你曾在生数从事多模态基础模型,为何创业后不选择开发通用多模态Agent?

廖谦:在谷歌等巨头介入前,回顾移动互联网发展可见规律:技术萌芽期,最正确的是做时代该做之事,而非超前布局。

现许多人想打造AI版抖音,我也相信这一天终将到来,但未必在未来两三年内实现。正如PC互联网时期就有人尝试推荐系统,但那是移动互联网成熟后方能成功——因此,我认为创业首需聚焦可落地之事。

《智能涌现》:你们将从何种垂直场景切入?

廖谦:我们将从“信息生产端”切入,服务需高效产出视频、图片等内容的用户,而非构建内容消费平台。

从信息类型看,如娱乐、社交类短视频,这两类必为大厂主战场,创业公司易被卷入红海,且此类内容大概率免费。

故我们选择“生产力信息”——如企业营销场景产生的内容,服务营销人员、品牌方、企业内容团队等有明确工作产出目标的群体。

且此类场景投资回报率可量化,能实现盈利。我们的目标是将原有制作成本降低十倍,同时使交付质量达行业标准。

《智能涌现》:此需求较为非标,为何选择营销方向?

廖谦:该方向存在明确痛点。例如商家以往制作营销视频,单支成本常达数千人民币或数百美元,甚至品牌叙事类视频成本过万;其次是档期,自身无法完成需寻找代理,代理未必有空;第三是质量,代理团队水平参差不齐,产出不稳定。

以Sora为例,现生成视频成本至少一两美元,约合数十人民币。我们能将原有成本降低十倍以上。现我们旨在端到端以AI完成此过程,无需人工中介。

《智能涌现》:具体而言,你们通过何种流程理解用户需求?

廖谦:例如,商家联系我们后,第一步是了解其产品与品牌。我会让大模型收集其公开信息,如官网、社交账号内容,确保充分理解品牌。同时,研究其所在行业及主要竞争对手。

在全面掌握用户与行业信息后,再进入交互环节。交互应为多模态,不限于文字输入。例如我们会问:“您偏好何种画风?”若用户回答“帅的”,过于抽象,我们将生成三张参考图供用户选择。

视频初稿生成后,我们会收集用户修改反馈,此时交互应在用户观看视频的同时,通过语音或文字告知。

通过此流程,我们先掌握产品、品牌及市场信息,再了解用户偏好,从而助其更好完成信息表达,即输出视频。

《智能涌现》:此过程中,会有真人对接需求吗?或者说,你们希望替代原有创作者角色,这在多大程度上可行?

廖谦:不会。在Vidu期间,我们验证了两点。一是AI制作的内容可被消费。

二是若服务大客户,必须配备真人。但服务中小客户时,他们能接受AI接管流程,预算决定预期。我们前期调研显示,他们对AI的接受度良好。

廖谦:AIGC多面手的创业之路,打造多模态营销Agent AIGC  多模态 营销Agent 创业 第3张

Sora2发布不要紧,“我们已经在造船了”

《智能涌现》:Sora App发布当日,你在忙什么?

廖谦:直冒冷汗。那天是十月一日凌晨,我们正在加班,作为初创公司,看到发布后整夜未眠,持续体验Sora。

初看Sora时,我心感慌张,心想其叙事能力竟如此强大?但随后我转变思维,思考:我已不在基础模型公司,无正面竞争压力。相反,我略显欣喜。

因为这意味我做应用将更简易,随后我便兴奋不已。

《智能涌现》:所以你们的工作更似造船,随模型能力提升,你们的能力亦增强。

廖谦:是的,Sora提供API即可,Vidu、可灵等其他模型也将成为我们的工具。

此举将极大推动所有基础模型厂商进展——第一,刺激大家追赶,对AI应用极为有利;第二,资本层面,将使多模态领域资本更活跃。整个行业发展将加速。

《智能涌现》:从你们视角,对Sora的判断是?

廖谦:我们次日原计划讨论十月目标,我取消了所有会议,让大家深入体验、评测。我们评测其在叙事类内容、营销方向的表现,亦评测单镜头、长镜头等美学表现及一致性等。

我们得出结论:Sora的优异之处在于叙事、音视频直出,包括部分娱乐内容,明确领先。

Sora在我看来非单纯模型,实为Agent。

Sora自称AI系统。你令其制作视频,仅需简单提示:“我与Sam Altman在YC会议室聊天”,它便会构建会议室、布局,包括两人争执或互动,讲述完整小故事。此非视频模型所能,必用语言模型前置。

但它在长叙事视频或营销视频等生产级领域,仍有许多问题未解,其一致性处理不佳。

音视频同出亦非常厉害。但2024年我在Vidu时,包括国内多家公司早已布局此方向,近期Google亦发布Veo 3,故此能力在预期内。

包括类似Sora Cameo的交互设计,我们去年在Vidu上已探索相同交互机制,只不过我们面向更泛化创作场景,如广告、影视制作,用于构建资产概念,用户可创建人物角色、道具、场景等元素,创作时一键@融合至视频。我一直认为,此方式将成为未来内容创作主流交互之一。

《智能涌现》:从哪些细节可见Sora优于现有产品?你们猜测他们做了什么以实现此能力?

廖谦:Sora一是叙事超预期;二是具备镜头语言,但非电影镜头语言,而是社交媒体化镜头语言——频繁切镜、夸张表情等。

若Sora App制作短剧,表现力极佳,各镜头切换自然。此与其数据相关,可见其喂入大量社交娱乐数据,但你会发现Sora在美学角度不及部分其他产品。

《智能涌现》:Sora App发布后,是否直接影响你们的业务目标?

廖谦:有,即我们可更聚焦重要事务。Sora的出现对我们大为利好,因我们利用工具制作内容的速度更快、门槛更低。

《智能涌现》:你刚提及,Sora将极大刺激所有大厂进程。

廖谦:一是Sora免费,众所周知;二是产品设计细节:登录Sora App时,OpenAI提供的首选登录方式为GPT账号,其次为其他。

通常我们设计产品时,非常重视账号体系,会列出GPT、Google、Apple甚至Facebook等选项,方便用户登录。

仅从此设计看,OpenAI野心更大,它绝不甘于仅做拥有输入框的ChatGPT及销售API的公司,而是希望构建基于GPT的生态。

所有大厂都需防守。他们将把核心精力投入主赛道,因他们会发现OpenAI正蚕食其主赛道。

微软前CEO萨提亚在ChatGPT推出浏览器插件时曾言:“搜索的毛利被永久降低”。现用谷歌搜索时,最上方输入框实为大语言模型提供的结论,这意味着每次搜索都消耗额外算力。

Sora App出现后,AI社交、AI娱乐的毛利亦被永久降低。你会发现新时代社交产品、娱乐产品必将包含此类互动玩法,成本高昂。即便每次交互成本降至一毛钱,较搜索贵许多,亦须实施。

《智能涌现》:你是说未来我们浏览的内容,AI化进程将加速。

廖谦:是的。

《智能涌现》:创业公司的生态位何在?

廖谦:作为创业公司,你必须有足够硬的亮点。足够硬后,用户便会开始“多持”。用户会购买可灵、即梦,亦会购买Vidu,那便足够。

《智能涌现》:大语言模型技术路线已趋收敛。多模态发展路径未来会与大语言模型相同吗?

廖谦:此不宜直接类比。

多模态实分三类。首类为多模态理解,理解输入图片与视频内容,此更偏大语言模型范畴;

第二类为多模态生成,生成图片、视频,为现Vidu、可灵、Sora所为,它不具备智能,仅能渲染;

第三类类似李飞飞研究的World Model,为大语言模型与多模态生成结合之物。

多模态与大语言模型显著不同之处在于:大语言模型的缩放定律确被验证,参数越多越强。但在多模态领域,若数据不佳,盲目扩大参数并不奏效。

多模态领域,数据重要性极高。即便模型不大,但数据优质,效果亦可能出色。

《智能涌现》:国内在多模态领域会领先多少?

廖谦:至少有一段时期,中国视频生态整体领先海外一至两年,以可灵为主要代表。但在Google Veo3与Sora问世后,我认为国内又存在一定差距。

从营销Agent,到新时代的AI表达系统

《智能涌现》:你刚说,要做时代该做之事。营销Agent是你们首要目标,未来呢?

廖谦:宏观目标上,我们希望构建未来的信息表达系统。

我认为信息表达历经三个时代变革。

最早搜索时代,你主动在搜索框寻找内容;推荐时代,系统将预制内容(文字、图片)推送给你,催生了知乎、抖音。

现为生成时代。AI读取海量信息后,进行聚合与理解,再以你最需要的方式(文字、图片、视频)重新生成并表达给你。

此彻底改变游戏规则:推荐时代的“标题党”失效,因AI关注内容实质,非点击率;同时,可实现真正个性化,如教育中的因材施教——知识不变,但AI能为每人生成最适配、可视化的专属教材。

Sora的出现,正是将“信息可视化表达”大幅推进。此类端到端智能生成,人力无法完成,亦为时代全新命题。

《智能涌现》:未来,你们会拓展至通用Agent还是其他垂类?

廖谦:我的观点是先做垂类,通用Agent并非当前最佳切入点。

未来竞争必按行业或场景划分垂类。我们计划先服务好一垂类,未来拓展方向亦是打造多个不同垂类Agent,而非大而全的通用Agent。

《智能涌现》:为何认为通用Agent不是最佳切入点?

廖谦:通用Agent难以定义任务优劣与标准。

做好用户理解与交互至关重要。不同垂类场景的交互形态、需收集信息、沉淀的行业知识截然不同。通用Agent会使上下文复杂化,无法在特定领域做深。

《智能涌现》:所以你们会按效果付费?

廖谦:“效果”(如阅读量、转化率)含诸多我们无法控制的外部因素。视频再佳,若产品定价两百万,销量必差,此责我们无法承担。

我们所说的“结果”,指我们承诺交付达到行业特定质量标准、内容本身合格的交付物。此质量水平与价格明确。

我们保证交付此“结果”,但不保证发布后的“效果”。如此用户体验清晰透明,他明确知晓花费所得。

《智能涌现》:除营销外,你们此表达系统未来可能涵盖哪些场景?举例说明。

廖谦:例如你是记者,每日需追踪上百信息源,包括公众号、官网等。

以往你可能查看推荐流,RSS工具抓取,此乃被动接收他人撰写的原生内容。

Agent时代为生成:你仅需输入简单需求,告知AI关注点,它会主动理解、抓取、聚合所有信息,随后为你动态生成当日专属情报——甚至据你所在场合,如在办公室,则生成图文报告;若在路上,则生成播客供你收听。

它不再推送“原生内容”,而是为你生成“全新内容”,此乃信息表达的未来。

《智能涌现》:对产品经理而言,预测模型发展曲线很重要。如何确保不被基础模型吞噬?现Sora问世后,许多AI生视频工具已被吞没。

廖谦:众人皆求确定性,无论投资或创业,但此不现实。

现多模态仍处激烈竞争状态。我与该领域众多顶尖技术从业者交流,他们训练模型时亦隐约感觉可行,但究竟得100分或60分,并无十足把握,故需不断实验。

做产品亦然。与其焦虑预测,不如建立快速反应机制。我一直强调团队要迅捷,基础模型每两三月迭代一次,而我们的产品必须每周迭代。

许多创业者希望能完全预判模型三月后形态,再规划产品,但此乃追求确定性的脆弱表现。

《智能涌现》:你可谓见证AIGC领域从零到一之人,近年来你对大模型技术发展或AI本身,有何核心认知变化?

廖谦:应更冒险、更激进。

在大厂时,我经历诸多系统性训练,教你正确行事,但在创业公司,需更大胆构思。

昨日,就在此会议室,我与团队讨论交互设计时,研发同学认为此交互过于超前、未必能实现等。

我便告诉他,核心意思是,我们非进行实验室研究,创业公司不冒险,何为创业?

创业正是要探索尚未验证的可能性。

封面来源|企业官方

欢迎交流

欢迎交流