埃隆·马斯克与萨姆·阿尔特曼的竞争再次成为焦点!
据智东西10月8日报道,今日凌晨,马斯克创立的人工智能公司xAI正式推出了新一代视频生成模型Imagine v0.9,并宣布完全免费向所有用户开放。
就在一周前,OpenAI发布了其旗舰视频和音频生成模型Sora 2,此次xAI的更新被视为对Sora 2的直接挑战。
xAI并未提供详细的技术文档,但表示Imagine v0.9相较于初始版本在视觉质量、运动表现和音频生成方面均有显著提升,并展示了一些生成视频示例。
马斯克在X平台上发文称,Imagine v0.9能在不到20秒内生成视频,且用户通过语音优先界面,仅需口述指令即可创建视频、图像和文本。
总体而言,Imagine v0.9在生成速度上更胜一筹,仅需20秒以内,而Sora 2可能需要一两分钟;Imagine v0.9已免费向全球用户开放,而Sora 2仍采用邀请制;Imagine v0.9生成视频时长约6秒,而Sora 2支持长达15秒的视频。
智东西通过使用OpenAI官方示例提示词进行对比测试,发现Imagine v0.9在生成过程中存在提示词理解偏差、视频画面与音频不同步、未提示深度伪造风险、不支持中文等问题。
值得一提的是,这是自马斯克今年7月从英伟达挖来高级算法工程师何宜晖(Ethan He)后,何宜晖在xAI参与的首个项目。
何宜晖于2018年从西安交通大学计算机科学与技术专业本科毕业,2019年在卡内基梅隆大学获得计算机视觉硕士学位,2023年加入英伟达担任高级深度学习算法工程师,曾参与英伟达世界基础模型Cosmos的研发工作。
尽管Imagine v0.9宣称免费使用,但智东西实测发现Web端目前无法正常访问,移动端虽可体验,但也常出现连接失败的情况。
Imagine v0.9已集成到Grok中,它能够根据文字描述先生成图片再转化为视频,或直接将用户上传的图片动态化。
xAI在博客中强调,Imagine v0.9实现了原生音频与视频的同步生成,无需额外编辑即可产出电影级效果的视频。例如,在演示视频中,龙的怒吼声与画面完美契合。
Imagine v0.9的另一大亮点是运动控制,如滑雪片段中人物从起飞到落地的动作流畅自然。
第三项功能是动态相机效果,用户可添加智能焦点转移,在街景视频中根据镜头移动自动虚化背景以突出人物。
第四点,Imagine v0.9支持添加自然对话或生成富有表现力的歌声,进一步丰富视频内容。
智东西采用OpenAI演示Sora 2时使用的提示词,对Imagine v0.9和Sora 2的生成效果进行了对比。
提示词:Two mountain explorers in bright technical shells, ice crusted faces, eyes narrowed with urgency shout in the snow, one at a time(两名山地探险者穿着色彩鲜艳的专业冲锋衣,脸上结着冰霜,眼神急切地眯成一条缝,在雪地里轮流大喊)
OpenAI放出的Sora 2生成视频:
Imagine v0.9的生成视频:
可以看出,Imagine v0.9生成的视频中音频并未包含“喊叫”声,仅显示人物张嘴动作。
提示词:a guy does a backflip(一个男人后空翻)
OpenAI放出的Sora 2生成视频:
Imagine v0.9的生成视频:
智东西选择了Grok生成的第一张图创建视频,结果视频中主角违反重力规律,在空中进行360度旋转。
最后,智东西还测试了Imagine v0.9的自定义语音功能,上传了马斯克的照片,并让其说出“Sam’s a sharp guy, and our relationship’s always been good. OpenAI’s built some impressive stuff in the AI space, and I really hope to partner with them someday to advance AI development togethe(萨姆是个敏锐的人,我和他的关系一直都很好。OpenAI 在人工智能领域做出了不少亮眼的成果,我真心希望有一天能和他们合作,共同推动人工智能技术的发展)”这段话。
Imagine v0.9未提示深度伪造风险,且生成的声音与马斯克本尊略有差异。
目前该模型不支持中文,当智东西让马斯克说出“我和萨姆·阿尔特曼是好朋友”时,生成视频中仅有“是好朋友”部分较为清晰。
一周之内,OpenAI和xAI相继发布视频生成模型更新,Sora 2在模拟真实性、可控性和音效方面有所提升,并推出了全新的Sora社交App;而xAI则在功能升级的同时,通过免费策略吸引了大量关注。
Imagine v0.9的重要升级之一是允许用户添加自定义语音。随着技术日趋成熟,用户可上传公众人物照片和语音内容生成逼真视频,这可能加剧深度伪造风险。
因此,如何在推动技术发展的同时有效防控风险,将成为所有视频生成模型提供商必须面对的重大挑战。
本文由主机测评网于2026-01-06发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260115233.html