当前位置：首页 > 科技资讯 > 正文

快手开源6710亿参数多模态大模型Keye-VL-671B-A37B

主机测评网
科技资讯
2026-05-14
572

智东西11月28日报道，快手近日宣布开源其最新一代旗舰多模态大模型Keye-VL-671B-A37B。这款模型基于DeepSeek-V3-Terminus打造，拥有惊人的6710亿个参数，在保持基础模型通用能力的同时，对视觉感知、跨模态对齐与复杂推理链路进行了全面升级，实现了卓越的多模态理解和复杂推理能力。

让我们通过几个案例来感受Keye-VL-671B-A37B的强大实力。如下图所示，图中包含几张电影票？大多数人可能脱口而出：“三张。”

快手开源6710亿参数多模态大模型Keye-VL-671B-A37B Keye-VL-671B-A37B 多模态大模型视觉感知复杂推理第1张

然而，Keye-VL-671B-A37B的观察更为细致入微，结合票据上的文字信息，它能准确判断出图中仅有两张电影票，最上面那张是爆米花小吃券。这得益于它不仅准确识别画面中每张票据的文字、标识和版式差异，还能进一步推理：左边和中间的票据符合电影票的核心特征，而右侧票据无座位信息、无影片场次标注，实为叠放的食品兑换券。

除了图像理解能力外，Keye-VL-671B-A37B同样展现出强大的视频理解和推理能力。当被问及下方视频的镜头变化时，它能精准识别出“蓝色双层电车”、“Louis Vuitton”、“Tiffany & Co”等核心元素，并详细输出镜头变化的细节。

快手开源6710亿参数多模态大模型Keye-VL-671B-A37B Keye-VL-671B-A37B 多模态大模型视觉感知复杂推理第2张

快手还公布了Keye-VL-671B-A37B与其他VL模型的性能对比。在通用视觉理解和视频理解两大核心领域，Keye-VL-671B-A37B的整体表现超越了字节的Seed1.5-VL think、阿里的Qwen3-VL 235B-A22B等前沿VL模型。

快手开源6710亿参数多模态大模型Keye-VL-671B-A37B Keye-VL-671B-A37B 多模态大模型视觉感知复杂推理第3张

在涵盖STEM、推理、通用问答、视频理解、OCR和纯文本等能力的26项主流基准测试上，Keye-VL-671B-A37B取得了18项最高得分。

快手开源6710亿参数多模态大模型Keye-VL-671B-A37B Keye-VL-671B-A37B 多模态大模型视觉感知复杂推理第4张

目前，Keye-VL-671B-A37B已经正式开源，用户可在Hugging Face和GitHub下载体验。

Github：

https://github.com/Kwai-Keye/Keye

HuggingFace：

https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B

一、三阶段预训练，仅用300B高质量数据

Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作为大语言模型基座初始化，具备强大的文本推理能力。视觉模型则采用Keye-ViT初始化，该组件源自Keye-VL-1.5。二者通过MLP层进行桥接。Keye-VL-1.5是快手今年9月初开源的一款多模态大模型，拥有80亿个参数，支持128k tokens扩展上下文。

Keye-VL-671B-A37B的预训练分为三个阶段，以系统化构建模型的多模态理解与推理能力。模型复用Keye-VL-1.5的视觉编码器，该编码器已通过8B大小的模型在1T token的多模态预训练数据上进行对齐，具备扎实的基础感知能力。

快手精选了约300B高质量数据进行预训练，与其他大模型动辄以“T（万亿）”计算的训练数据形成鲜明对比。快手表示，希望以有限的计算资源高效构建模型的核心感知基础，确保视觉理解能力扎实且计算成本可控。

Keye-VL-671B-A37B的预训练分三步走：

第一阶段：冻结ViT和LLM，仅训练随机初始化的Projector，确保视觉、语言特征能初步对齐。

第二阶段：开放全部参数进行预训练。

第三阶段：在更高质量的数据上进行退火训练，提升模型的细粒度感知能力。

Keye的多模态预训练数据通过一套自动化的数据管线构建。快手对数据进行了严格过滤和重采样，并加入VQA数据增强，以覆盖OCR、图表、表格等常见且复杂的视觉格式，提升模型的感知质量和泛化能力。

在退火阶段，快手加入了DeepSeek-V3-Terminus生成的思维链数据，使模型在强化视觉感知的同时，不丢失原本强大的推理能力。

二、多阶段后训练策略验证混合CoT数据效果

Keye-VL-671B-A37B的后训练由监督微调（SFT）、冷启动和强化学习三个步骤组成，涵盖视觉问答、图表理解、富文本OCR、数学、代码、逻辑推理等训练任务。

在SFT阶段，技术团队使用了更多的多模态和纯文本长思维链数据，对模型的纯文本能力进行回火并增强多模态能力。在冷启动阶段，采用推理数据增强模型的推理能力。在强化学习阶段，采用复杂推理数据提升模型的think和no_think（思考与非思考）能力，并加入视频数据以增强视频理解能力。

技术团队对数据集中指令（Instruct）数据和长思维链（Long-CoT）数据的配比进行了反复实验，以突破监督微调范式片面依赖指令数据的局限性。

实验表明，混合模式（Instruct + Long-CoT）相较于单一模式（Instruct）具有明显优势。在SFT数据集中加入更多长思维链推理数据，有助于提升模型整体性能及后续训练稳定性。

快手开源6710亿参数多模态大模型Keye-VL-671B-A37B Keye-VL-671B-A37B 多模态大模型视觉感知复杂推理第5张

三、强化学习采用Qwen3同款算法并打造专用Verifier模型

在强化学习阶段，快手未采用传统的GRPO算法。GRPO是token层的建模方式，在训练MoE模型时存在不稳定性。

GSPO（Group Sequence Policy Optimization）作为底层强化学习算法被引入进行序列层的建模。该算法是阿里Qwen3系列模型的核心算法之一。此举旨在提升可验证奖励强化学习（RLVR）训练的稳定性。

奖励信号的质量对强化学习至关重要。为此，快手首先训练了专门的Verifier（验证器），用于验证模型输出思考过程的逻辑性及其答案与标准答案的一致性。该Verifier模型基于Keye--VL 67.1B 8B作为基座

-val='' src='https://img.36krcdn.com/hsossms/2' alt='智东西 Verifier模型精度'/>

...

高防服务器性价比vps

本文由主机测评网于2026-05-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器，如有疑问，请联系我们。
本文链接：https://www.vpshk.cn/20260545285.html

上一篇
高玉玲掌舵海信家电一年，面临业绩增长挑战

下一篇
2025物联网与AI融合：挑战、机遇与趋势

相关文章

Claude Code 2.1：AI辅助编程的极致探索

AI“心机”挑战：2026职业危机与未来展望

雷军重塑“前瞻力”：小米AI转型的关键一步

芬兰固态电池惊现，中日韩如何应对？

星环聚能10亿A轮融资，推动核聚变技术商业化

Verge TS Pro电摩：性能巅峰与未来电池技术

国产大模型巨头智谱与MiniMax：财务与商业化路径对比

硅谷亿万富翁逃离：新富人税引发震动