当前位置:首页 > 科技资讯 > 正文

InfinityStar超越DiT:高效视频生成技术革新

啪!~~~

一篇荣获顶会NeurIPS’25 Oral的论文,对DiT(Diffusion Transformer)发起了有力挑战。

InfinityStar超越DiT:高效视频生成技术革新 InfinityStar DiT 视频生成 高效 第1张

自DiT问世以来,视频生成领域便受到了其强劲冲击。

然而,尽管DiT站稳了脚跟,但其计算复杂度、资源消耗及生成速度等问题仍不容忽视。

来自字节跳动商业化技术团队的这篇论文,提出了名为InfinityStar的方法,实现了视频生成质量与效率的双重飞跃,为视频生成方法开辟了新路径。

InfinityStar超越DiT:高效视频生成技术革新 InfinityStar DiT 视频生成 高效 第2张

如这些有趣的动画片片段,均由InfinityStar精心打造:

InfinityStar的亮点可归纳如下:

首个在VBench上超越扩散模型的离散自回归视频生成器;

视频生成无需“慢工出细活”:从百步去噪到自回归,告别延迟

  1. 任务通吃:文生图、文生视频、图生视频、交互式长视频生成等。

值得一提的是,InfinityStar的论文、代码及体验地址均已发布(链接见文末),接下来我们将深入实测一番~

实测:InfinityStar力压DiT的AI视频生成

首先,我们来简要了解InfinityStar的体验方法。

其入口位于Discord社区内,登录账号后,点击下方链接即可跳转。http://opensource.bytedance.com/discord/invite

在左侧导航栏下方,有InfinityStar文生视频、图生视频等功能的选项。展示的视频是在“i2v-generate-horizontal-1”中实现的:

InfinityStar超越DiT:高效视频生成技术革新 InfinityStar DiT 视频生成 高效 第3张

接下来,我们将体验InfinityStar的文生图和图生视频的联动玩法

先进入“infinity-8b-generate”,输入以下提示词生成几张图片:

A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes...

InfinityStar超越DiT:高效视频生成技术革新 InfinityStar DiT 视频生成 高效 第4张

挑选一张满意的图像后,将其“投喂”至“i2v-generate-horizontal-1”,配合以下提示词生成视频:

The cat opened its mouth and made a sound, then licked its nose with its tongue.

通过类似方法,你可快速生成各种风格、影视级的镜头:

包括各种运动场景中,人物的复杂动作也能轻松应对:

此外,作为原生自回归模型,InfinityStar还支持交互式长视频生成

只需提供一段5秒的视频,然后InfinityStar能接受新的提示词,根据参考视频和提示词继续生成:

...