一声巨响!~~~
一项入选国际顶级会议NeurIPS’25 Oral的学术论文,对DiT(Diffusion Transformer)提出了强有力的挑战。
自从DiT技术出现以来,视频生成领域几乎被其主导。
然而,DiT在计算复杂度上存在明显不足,导致资源消耗大、生成速度慢等问题。
来自字节跳动商业化技术团队的这项研究,提出了名为InfinityStar的创新方法,在视频生成的质量和效率之间取得了平衡,为未来发展开辟了新路径。
例如,以下动画片段均由InfinityStar生成:
总体而言,InfinityStar的主要优势可归纳为三点:
它是首个在VBench评测中超越扩散模型的离散自回归视频生成器;
视频生成无需等待:从多步去噪转变为自回归过程,大幅降低延迟;
值得注意的是,InfinityStar的论文、代码和体验地址均已公开(详见文末),接下来我们进行实际测试。
首先简要了解InfinityStar的使用方式。
其入口位于Discord社区,登录账号后点击链接即可访问。http://opensource.bytedance.com/discord/invite
在左侧导航栏下方,可选择InfinityStar的文生视频、图生视频等功能。前述视频演示是在“i2v-generate-horizontal-1”中完成:
接下来,演示InfinityStar的文生图和图生视频联动功能。
首先进入“infinity-8b-generate”,输入提示词生成图像:
A hyper-detailed, ultra-realistic, cinematic portrait of a fluffy white Ragdoll cat with striking sapphire-blue eyes and long black eyelashes. The cat’s expression is calm, poised, and intensely self-assured — its gaze direct, steady, and dignified, conveying quiet confidence and elegant composure……
选择满意图像后,将其输入“i2v-generate-horizontal-1”,配合提示词生成视频:
The cat opened its mouth and made a sound, then licked its nose with its tongue.
通过类似方法,可快速生成多种风格、影视级镜头:
即使在复杂运动场景中,人物动作也能精准呈现:
此外,作为原生自回归模型,InfinityStar支持交互式长视频生成。
只需提供一段5秒视频,InfinityStar能根据新提示词和参考视频持续生成后续内容。
InfinityStar的核心在于时空金字塔建模方法,这使其统一了图像与视频任务,并比主流扩散模型快一个数量级。
整体上,InfinityStar借鉴了前作(如VAR和Infinity)在空间维度上的下一尺度预测思路,并将其扩展至时空维度,解决了传统方法难以在单一模型中处理静态图像和动态视频的难题。
其关键设计是将视频分解为两部分。
1、首帧(外观信息):
视频首帧作为独立图像,采用与Infinity模型一致的图像金字塔进行从粗到细的建模,专门捕获视频的静态外观信息,如场景、物体和风格。
2、后续片段(动态信息):
首帧后的视频内容被分割为连续片段(Clips)。这些片段金字塔在空间维度外引入时间维度,专门捕获视频的动态变化,如运动轨迹和镜头变换。
通过这种“首帧 + 视频片段”分解策略,InfinityStar成功解耦了静态外观和动态信息。所有金字塔内部(尺度间)和金字塔之间(片段间)的依赖关系,均由强大的时空自回归Transformer建模。
最终,无论是图像生成、视频生成还是图生视频,所有任务都被统一为“预测下一尺度/下一片段”的自回归问题,实现了架构的高度统一。
除了整体框架,InfinityStar还有两项关键技术。
首先是高效的视觉分词器。
为使Transformer处理视觉信息,需将图像和视频转换为离散Token。InfinityStar训练了基于多尺度残差量化的视觉分词器,并引入两项技术克服训练难题:
知识继承 (Knowledge Inheritance)
训练离散视觉分词器通常耗时。研究发现,继承预训练连续视觉分词器(如Video VAE)的结构和权重,能显著加速离散分词器收敛,更快达到高保真重建水平。
2. 随机量化器深度 (Stochastic Quantizer Depth)
在视频金字塔中,信息分布不均:细节集中在精细尺度,导致token数量差异巨大。这阻碍Transformer学习,使其过度依赖后续尺度而忽略全局语义的早期尺度。
为此,InfinityStar引入随机量化器深度正则化技术。训练时随机丢弃精细尺度Token,迫使模型仅凭粗糙尺度Token重建有意义信息。这使得信息分布更均衡,提升了学习效率和生成质量。
其次是优化的时空自回归Transformer。
为应对视频生成的新挑战(如长上下文、时空依赖),InfinityStar对自回归Transformer进行了三项改进:
语义尺度重复 (Semantic Scale Repetition)研究发现,金字塔中靠前的尺度(语义尺度)控制视频全局信息,如整体布局和运动趋势。为强化这一点,InfinityStar在预测时重复预测这些语义尺度N次,允许模型对全局语义信息进行“反复修正”。这一简单技巧显著增强了生成视频的结构一致性和运动流畅性。
时空稀疏注意力 (Spacetime Sparse Attention)视频生成尤其是长视频,意味着极长Token序列,对注意力计算和显存构成挑战。InfinityStar设计了高效时空稀疏注意力,仅关注必要上下文信息(如前一片段的最后尺度),在保持时间一致性的同时大幅降低计算复杂度,使高质量长上下文视频生成成为可能。
时空RoPE位置编码 (Spacetime RoPE)为使模型精确感知Token在时空金字塔中的位置,InfinityStar引入增强版RoPE位置编码,同时编码尺度、时间、高度和宽度信息,为Transformer提供精确时空坐标感。
总结而言,InfinityStar比DiT快一个数量级,关键在于DiT需20–100步去噪迭代,而InfinityStar是纯自回归一次性生成;且离散token加粗到精预测机制,大幅减少推理步数。
实验结果显示,在文生图(T2I)任务上,InfinityStar在GenEval和DPG基准上表现优异,尤其在位置和物体关系上优势明显。
在文生视频(T2V)任务上,InfinityStar在VBench基准上表现突出,不仅超越所有先前自回归模型,甚至优于CogVideoX、HunyuanVideo等基于DiT的方法。
在与HunyuanVideo的人类偏好评估中,InfinityStar-8B比HunyuanVideo-13B表现更好,尤其在指令遵循方面优势显著。
在视频生成效率上,InfinityStar比同尺寸基于DiT的方法(如HunyuanVideo、Wan-Video)快一个数量级,在单张GPU上生成5秒720p视频仅需不到1分钟。
总之,字节跳动这项研究证明离散自回归模型不仅能快速生成,还能保证高质量,打破了唯有扩散模型才能实现高清生成的迷思。
论文链接:https://arxiv.org/pdf/2511.04675
代码链接:https://github.com/FoundationVision/InfinityStar
申请体验:http://opensource.bytedance.com/discord/invite
本文由主机测评网于2026-01-24发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260120053.html