马斯克与OpenAI再度交锋!
智东西于10月8日获悉,马斯克旗下的大模型独角兽xAI在今日凌晨推出了最新视频生成模型Imagine v0.9,并免费向所有用户开放。
就在一周前,OpenAI发布了其旗舰视频和音频生成模型Sora 2,此次xAI的更新似乎是对Sora 2的直接回应。
xAI并未发布详细的技术博客,只是提到Imagine v0.9相较于初代版本在视觉质量、动作及音频生成方面有所进步,并上传了若干生成视频作为示例。
马斯克在X平台上发帖称,Imagine v0.9的视频生成时间不超过20秒,且用户只需通过语音优先界面说话,即可创建视频、图像和文本。
总结而言,Imagine v0.9的生成速度更快,在20秒以内即可完成,而Sora 2可能需要一两分钟;Imagine v0.9已经免费向所有用户开放,而Sora 2采用邀请制仅供部分用户使用;Imagine v0.9生成的视频时长约为6秒,而Sora 2支持15秒的视频生成。
智东西对比了Imagine v0.9和Sora 2的生成效果,使用OpenAI官方示例的提示词发现,Imagine v0.9在生成时会出现提示词理解错误、视频画面与音频不符、未提示深度伪造风险、不支持中文等问题。
值得一提的是,这是马斯克今年7月从英伟达挖来高级算法工程师何宜晖(Ethan He)后,何宜晖在xAI参与的第一个项目。
何宜晖于2018年在西安交通大学取得计算机科学与技术专业的本科学位,2019年在卡内基梅隆大学获得计算机视觉硕士学位,并于2023年加入英伟达担任高级深度学习算法工程师,曾参与英伟达世界基础模型Cosmos的研发。
尽管Imagine v0.9可以免费使用,但智东西尝试后发现Web端目前无法正常工作,移动端可以体验但偶尔会出现连接失败的情况。
Imagine v0.9已集成至Grok中,能够根据文字先生成图片再创建视频,或直接将用户上传的图片转化为视频。
xAI在博客中提到,Imagine v0.9突破了原生音频+视频生成的界限,开箱即用,无需编辑即可创建类似电影效果的视频。如下面这段视频中展示了龙的怒吼。
Imagine v0.9的另一大升级点是运动控制,如下面视频中的滑雪片段,人物飞起到落下的动作非常流畅。
第三点是用户可以为视频添加动态相机效果,如智能焦点转移。下面视频中根据镜头位置变化,会相应虚化街景以突出人物。
第四点是Imagine v0.9支持添加自然对话或生成具有表现力的歌声等。
智东西使用了OpenAI演示Sora 2时的提示词,对比了Imagine v0.9和Sora 2的生成效果。
提示词:两名山地探险者穿着色彩鲜艳的专业冲锋衣,脸上结着冰霜,眼神急切地在雪地里轮流大喊。
OpenAI的Sora 2生成视频:
Imagine v0.9的生成视频:
可以看出,Imagine v0.9生成的视频中音频并未包含“喊叫”,只是画面中人物在张嘴。
提示词:一个男人后空翻
OpenAI的Sora 2生成视频:
Imagine v0.9的生成视频:
智东西选择了Grok生成的第一张图创建视频,视频中主角完全无视重力开始在空中360度旋转。
最后智东西还体验了Imagine v0.9的自定义语音功能。上传了马斯克的照片并让他说出一段文字。尽管Imagine v0.9未提示深度伪造风险,但生成的声音与马斯克本人略有差异。
目前该模型不支持中文。当尝试让马斯克说出“我和萨姆·阿尔特曼是好朋友”时,其生成的视频中只有“是好朋友”较为清晰。
短短一周内,OpenAI和xAI接连发布视频生成模型的新进展。Sora 2不仅在模拟真实性、可控性及音效方面有所提升,还推出了全新的Sora社交App。而xAI则在功能升级的基础上通过免费开放吸引了大量关注。
此次Imagine v0.9的一大亮点是允许用户在视频中添加自定义语音。随着技术的不断成熟,用户未来可以上传公众人物的照片及说话内容来生成逼真的视频,这可能带来深度伪造的风险。
因此,如何平衡技术发展与风险防控将是所有视频生成模型提供商都需面对的技术挑战。
本文由主机测评网于2026-05-02发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260542249.html