当前位置:首页 > 科技资讯 > 正文

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT

一声巨响!~~~

一项入选国际顶级会议NeurIPS’25 Oral的学术论文,对DiT(Diffusion Transformer)提出了强有力的挑战。

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第1张

自从DiT技术出现以来,视频生成领域几乎被其主导。

然而,DiT在计算复杂度上存在明显不足,导致资源消耗大、生成速度慢等问题。

来自字节跳动商业化技术团队的这项研究,提出了名为InfinityStar的创新方法,在视频生成的质量和效率之间取得了平衡,为未来发展开辟了新路径。

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第2张

例如,以下动画片段均由InfinityStar生成:

总体而言,InfinityStar的主要优势可归纳为三点:

它是首个在VBench评测中超越扩散模型的离散自回归视频生成器;

视频生成无需等待:从多步去噪转变为自回归过程,大幅降低延迟

  1. 多任务支持:涵盖文本到图像、文本到视频、图像到视频、交互式长视频生成等。

值得注意的是,InfinityStar的论文、代码和体验地址均已公开(详见文末),接下来我们进行实际测试。

实际体验:超越DiT的AI视频生成技术

首先简要了解InfinityStar的使用方式。

其入口位于Discord社区,登录账号后点击链接即可访问。http://opensource.bytedance.com/discord/invite

在左侧导航栏下方,可选择InfinityStar的文生视频、图生视频等功能。前述视频演示是在“i2v-generate-horizontal-1”中完成:

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第3张

接下来,演示InfinityStar的文生图和图生视频联动功能

首先进入“infinity-8b-generate”,输入提示词生成图像:

A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第4张

选择满意图像后,将其输入“i2v-generate-horizontal-1”,配合提示词生成视频:

The cat opened its mouth and made a sound, then licked its nose with its tongue.

通过类似方法,可快速生成多种风格、影视级镜头:

即使在复杂运动场景中,人物动作也能精准呈现:

此外,作为原生自回归模型,InfinityStar支持交互式长视频生成

只需提供一段5秒视频,InfinityStar能根据新提示词和参考视频持续生成后续内容。

InfinityStar为何比DiT更高效?

InfinityStar的核心在于时空金字塔建模方法,这使其统一了图像与视频任务,并比主流扩散模型快一个数量级。

整体上,InfinityStar借鉴了前作(如VAR和Infinity)在空间维度上的下一尺度预测思路,并将其扩展至时空维度,解决了传统方法难以在单一模型中处理静态图像和动态视频的难题。

其关键设计是将视频分解为两部分。

1、首帧(外观信息):

视频首帧作为独立图像,采用与Infinity模型一致的图像金字塔进行从粗到细的建模,专门捕获视频的静态外观信息,如场景、物体和风格。

2、后续片段(动态信息):

首帧后的视频内容被分割为连续片段(Clips)。这些片段金字塔在空间维度外引入时间维度,专门捕获视频的动态变化,如运动轨迹和镜头变换。

通过这种“首帧 + 视频片段”分解策略,InfinityStar成功解耦了静态外观和动态信息。所有金字塔内部(尺度间)和金字塔之间(片段间)的依赖关系,均由强大的时空自回归Transformer建模。

最终,无论是图像生成、视频生成还是图生视频,所有任务都被统一为“预测下一尺度/下一片段”的自回归问题,实现了架构的高度统一。

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第5张

除了整体框架,InfinityStar还有两项关键技术。

首先是高效的视觉分词器

为使Transformer处理视觉信息,需将图像和视频转换为离散Token。InfinityStar训练了基于多尺度残差量化的视觉分词器,并引入两项技术克服训练难题:

知识继承 (Knowledge Inheritance)

训练离散视觉分词器通常耗时。研究发现,继承预训练连续视觉分词器(如Video VAE)的结构和权重,能显著加速离散分词器收敛,更快达到高保真重建水平。

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第6张

2. 随机量化器深度 (Stochastic Quantizer Depth)

在视频金字塔中,信息分布不均:细节集中在精细尺度,导致token数量差异巨大。这阻碍Transformer学习,使其过度依赖后续尺度而忽略全局语义的早期尺度。

为此,InfinityStar引入随机量化器深度正则化技术。训练时随机丢弃精细尺度Token,迫使模型仅凭粗糙尺度Token重建有意义信息。这使得信息分布更均衡,提升了学习效率和生成质量。

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第7张

其次是优化的时空自回归Transformer

为应对视频生成的新挑战(如长上下文、时空依赖),InfinityStar对自回归Transformer进行了三项改进:

语义尺度重复 (Semantic Scale Repetition)研究发现,金字塔中靠前的尺度(语义尺度)控制视频全局信息,如整体布局和运动趋势。为强化这一点,InfinityStar在预测时重复预测这些语义尺度N次,允许模型对全局语义信息进行“反复修正”。这一简单技巧显著增强了生成视频的结构一致性和运动流畅性。

时空稀疏注意力 (Spacetime Sparse Attention)视频生成尤其是长视频,意味着极长Token序列,对注意力计算和显存构成挑战。InfinityStar设计了高效时空稀疏注意力,仅关注必要上下文信息(如前一片段的最后尺度),在保持时间一致性的同时大幅降低计算复杂度,使高质量长上下文视频生成成为可能。

时空RoPE位置编码 (Spacetime RoPE)为使模型精确感知Token在时空金字塔中的位置,InfinityStar引入增强版RoPE位置编码,同时编码尺度、时间、高度和宽度信息,为Transformer提供精确时空坐标感。

总结而言,InfinityStar比DiT快一个数量级,关键在于DiT需20–100步去噪迭代,而InfinityStar是纯自回归一次性生成;且离散token加粗到精预测机制,大幅减少推理步数。

实验结果显示,在文生图(T2I)任务上,InfinityStar在GenEval和DPG基准上表现优异,尤其在位置和物体关系上优势明显。

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第8张

在文生视频(T2V)任务上,InfinityStar在VBench基准上表现突出,不仅超越所有先前自回归模型,甚至优于CogVideoX、HunyuanVideo等基于DiT的方法。

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第9张

在与HunyuanVideo的人类偏好评估中,InfinityStar-8B比HunyuanVideo-13B表现更好,尤其在指令遵循方面优势显著。

InfinityStar:字节跳动自回归模型在视频生成领域超越DiT 视频生成  自回归模型 DiT 时空金字塔建模 第10张

在视频生成效率上,InfinityStar比同尺寸基于DiT的方法(如HunyuanVideo、Wan-Video)快一个数量级,在单张GPU上生成5秒720p视频仅需不到1分钟

总之,字节跳动这项研究证明离散自回归模型不仅能快速生成,还能保证高质量,打破了唯有扩散模型才能实现高清生成的迷思。

论文链接:https://arxiv.org/pdf/2511.04675

代码链接:https://github.com/FoundationVision/InfinityStar

申请体验:http://opensource.bytedance.com/discord/invite