当前位置：首页 > 科技资讯 > 正文

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT

主机测评网
科技资讯
2026-01-24
538

一声巨响！~~~

一项入选国际顶级会议NeurIPS’25 Oral的学术论文，对DiT（Diffusion Transformer）提出了强有力的挑战。

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT 视频生成自回归模型 DiT 时空金字塔建模第1张

自从DiT技术出现以来，视频生成领域几乎被其主导。

然而，DiT在计算复杂度上存在明显不足，导致资源消耗大、生成速度慢等问题。

来自字节跳动商业化技术团队的这项研究，提出了名为InfinityStar的创新方法，在视频生成的质量和效率之间取得了平衡，为未来发展开辟了新路径。

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT 视频生成自回归模型 DiT 时空金字塔建模第2张

例如，以下动画片段均由InfinityStar生成：

总体而言，InfinityStar的主要优势可归纳为三点：

它是首个在VBench评测中超越扩散模型的离散自回归视频生成器；

视频生成无需等待：从多步去噪转变为自回归过程，大幅降低延迟；

多任务支持：涵盖文本到图像、文本到视频、图像到视频、交互式长视频生成等。

值得注意的是，InfinityStar的论文、代码和体验地址均已公开（详见文末），接下来我们进行实际测试。

实际体验：超越DiT的AI视频生成技术

首先简要了解InfinityStar的使用方式。

其入口位于Discord社区，登录账号后点击链接即可访问。http://opensource.bytedance.com/discord/invite

在左侧导航栏下方，可选择InfinityStar的文生视频、图生视频等功能。前述视频演示是在“i2v-generate-horizontal-1”中完成：

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT 视频生成自回归模型 DiT 时空金字塔建模第3张

接下来，演示InfinityStar的文生图和图生视频联动功能。

首先进入“infinity-8b-generate”，输入提示词生成图像：

A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT 视频生成自回归模型 DiT 时空金字塔建模第4张

选择满意图像后，将其输入“i2v-generate-horizontal-1”，配合提示词生成视频：

The cat opened its mouth and made a sound, then licked its nose with its tongue.

通过类似方法，可快速生成多种风格、影视级镜头：

即使在复杂运动场景中，人物动作也能精准呈现：

此外，作为原生自回归模型，InfinityStar支持交互式长视频生成。

只需提供一段5秒视频，InfinityStar能根据新提示词和参考视频持续生成后续内容。

InfinityStar为何比DiT更高效？

InfinityStar的核心在于时空金字塔建模方法，这使其统一了图像与视频任务，并比主流扩散模型快一个数量级。

整体上，InfinityStar借鉴了前作（如VAR和Infinity）在空间维度上的下一尺度预测思路，并将其扩展至时空维度，解决了传统方法难以在单一模型中处理静态图像和动态视频的难题。

其关键设计是将视频分解为两部分。

1、首帧（外观信息）：

视频首帧作为独立图像，采用与Infinity模型一致的图像金字塔进行从粗到细的建模，专门捕获视频的静态外观信息，如场景、物体和风格。

2、后续片段（动态信息）：

首帧后的视频内容被分割为连续片段（Clips）。这些片段金字塔在空间维度外引入时间维度，专门捕获视频的动态变化，如运动轨迹和镜头变换。

通过这种“首帧 + 视频片段”分解策略，InfinityStar成功解耦了静态外观和动态信息。所有金字塔内部（尺度间）和金字塔之间（片段间）的依赖关系，均由强大的时空自回归Transformer建模。

最终，无论是图像生成、视频生成还是图生视频，所有任务都被统一为“预测下一尺度/下一片段”的自回归问题，实现了架构的高度统一。

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT 视频生成自回归模型 DiT 时空金字塔建模第5张

除了整体框架，InfinityStar还有两项关键技术。

首先是高效的视觉分词器。

为使Transformer处理视觉信息，需将图像和视频转换为离散Token。InfinityStar训练了基于多尺度残差量化的视觉分词器，并引入两项技术克服训练难题：

知识继承 (Knowledge Inheritance)

训练离散视觉分词器通常耗时。研究发现，继承预训练连续视觉分词器（如Video VAE）的结构和权重，能显著加速离散分词器收敛，更快达到高保真重建水平。

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT 视频生成自回归模型 DiT 时空金字塔建模第6张

2. 随机量化器深度 (Stochastic Quantizer Depth)

在视频金字塔中，信息分布不均：细节集中在精细尺度，导致token数量差异巨大。这阻碍Transformer学习，使其过度依赖后续尺度而忽略全局语义的早期尺度。

为此，InfinityStar引入随机量化器深度正则化技术。训练时随机丢弃精细尺度Token，迫使模型仅凭粗糙尺度Token重建有意义信息。这使得信息分布更均衡，提升了学习效率和生成质量。

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT 视频生成自回归模型 DiT 时空金字塔建模第7张

其次是优化的时空自回归Transformer。

为应对视频生成的新挑战（如长上下文、时空依赖），InfinityStar对自回归Transformer进行了三项改进：

语义尺度重复 (Semantic Scale Repetition)研究发现，金字塔中靠前的尺度（语义尺度）控制视频全局信息，如整体布局和运动趋势。为强化这一点，InfinityStar在预测时重复预测这些语义尺度N次，允许模型对全局语义信息进行“反复修正”。这一简单技巧显著增强了生成视频的结构一致性和运动流畅性。

时空稀疏注意力 (Spacetime Sparse Attention)视频生成尤其是长视频，意味着极长Token序列，对注意力计算和显存构成挑战。InfinityStar设计了高效时空稀疏注意力，仅关注必要上下文信息（如前一片段的最后尺度），在保持时间一致性的同时大幅降低计算复杂度，使高质量长上下文视频生成成为可能。

时空RoPE位置编码 (Spacetime RoPE)为使模型精确感知Token在时空金字塔中的位置，InfinityStar引入增强版RoPE位置编码，同时编码尺度、时间、高度和宽度信息，为Transformer提供精确时空坐标感。

总结而言，InfinityStar比DiT快一个数量级，关键在于DiT需20–100步去噪迭代，而InfinityStar是纯自回归一次性生成；且离散token加粗到精预测机制，大幅减少推理步数。

实验结果显示，在文生图（T2I）任务上，InfinityStar在GenEval和DPG基准上表现优异，尤其在位置和物体关系上优势明显。

InfinityStar：字节跳动自回归模型在视频生成领域超越DiT 视频生成自回归模型 DiT 时空金字塔建模第8张