智东西11月28日报道,快手近日宣布开源其最新一代旗舰多模态大模型Keye-VL-671B-A37B。这款模型基于DeepSeek-V3-Terminus打造,拥有惊人的6710亿个参数,在保持基础模型通用能力的同时,对视觉感知、跨模态对齐与复杂推理链路进行了全面升级,实现了卓越的多模态理解和复杂推理能力。
让我们通过几个案例来感受Keye-VL-671B-A37B的强大实力。如下图所示,图中包含几张电影票?大多数人可能脱口而出:“三张。”
然而,Keye-VL-671B-A37B的观察更为细致入微,结合票据上的文字信息,它能准确判断出图中仅有两张电影票,最上面那张是爆米花小吃券。这得益于它不仅准确识别画面中每张票据的文字、标识和版式差异,还能进一步推理:左边和中间的票据符合电影票的核心特征,而右侧票据无座位信息、无影片场次标注,实为叠放的食品兑换券。
除了图像理解能力外,Keye-VL-671B-A37B同样展现出强大的视频理解和推理能力。当被问及下方视频的镜头变化时,它能精准识别出“蓝色双层电车”、“Louis Vuitton”、“Tiffany & Co”等核心元素,并详细输出镜头变化的细节。
快手还公布了Keye-VL-671B-A37B与其他VL模型的性能对比。在通用视觉理解和视频理解两大核心领域,Keye-VL-671B-A37B的整体表现超越了字节的Seed1.5-VL think、阿里的Qwen3-VL 235B-A22B等前沿VL模型。
在涵盖STEM、推理、通用问答、视频理解、OCR和纯文本等能力的26项主流基准测试上,Keye-VL-671B-A37B取得了18项最高得分。
目前,Keye-VL-671B-A37B已经正式开源,用户可在Hugging Face和GitHub下载体验。
Github:
https://github.com/Kwai-Keye/Keye
HuggingFace:
https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作为大语言模型基座初始化,具备强大的文本推理能力。视觉模型则采用Keye-ViT初始化,该组件源自Keye-VL-1.5。二者通过MLP层进行桥接。Keye-VL-1.5是快手今年9月初开源的一款多模态大模型,拥有80亿个参数,支持128k tokens扩展上下文。
Keye-VL-671B-A37B的预训练分为三个阶段,以系统化构建模型的多模态理解与推理能力。模型复用Keye-VL-1.5的视觉编码器,该编码器已通过8B大小的模型在1T token的多模态预训练数据上进行对齐,具备扎实的基础感知能力。
快手精选了约300B高质量数据进行预训练,与其他大模型动辄以“T(万亿)”计算的训练数据形成鲜明对比。快手表示,希望以有限的计算资源高效构建模型的核心感知基础,确保视觉理解能力扎实且计算成本可控。
Keye-VL-671B-A37B的预训练分三步走:
第一阶段:冻结ViT和LLM,仅训练随机初始化的Projector,确保视觉、语言特征能初步对齐。
第二阶段:开放全部参数进行预训练。
第三阶段:在更高质量的数据上进行退火训练,提升模型的细粒度感知能力。
Keye的多模态预训练数据通过一套自动化的数据管线构建。快手对数据进行了严格过滤和重采样,并加入VQA数据增强,以覆盖OCR、图表、表格等常见且复杂的视觉格式,提升模型的感知质量和泛化能力。
在退火阶段,快手加入了DeepSeek-V3-Terminus生成的思维链数据,使模型在强化视觉感知的同时,不丢失原本强大的推理能力。
Keye-VL-671B-A37B的后训练由监督微调(SFT)、冷启动和强化学习三个步骤组成,涵盖视觉问答、图表理解、富文本OCR、数学、代码、逻辑推理等训练任务。
在SFT阶段,技术团队使用了更多的多模态和纯文本长思维链数据,对模型的纯文本能力进行回火并增强多模态能力。在冷启动阶段,采用推理数据增强模型的推理能力。在强化学习阶段,采用复杂推理数据提升模型的think和no_think(思考与非思考)能力,并加入视频数据以增强视频理解能力。
技术团队对数据集中指令(Instruct)数据和长思维链(Long-CoT)数据的配比进行了反复实验,以突破监督微调范式片面依赖指令数据的局限性。
实验表明,混合模式(Instruct + Long-CoT)相较于单一模式(Instruct)具有明显优势。在SFT数据集中加入更多长思维链推理数据,有助于提升模型整体性能及后续训练稳定性。
在强化学习阶段,快手未采用传统的GRPO算法。GRPO是token层的建模方式,在训练MoE模型时存在不稳定性。
GSPO(Group Sequence Policy Optimization)作为底层强化学习算法被引入进行序列层的建模。该算法是阿里Qwen3系列模型的核心算法之一。此举旨在提升可验证奖励强化学习(RLVR)训练的稳定性。
奖励信号的质量对强化学习至关重要。为此,快手首先训练了专门的Verifier(验证器),用于验证模型输出思考过程的逻辑性及其答案与标准答案的一致性。该Verifier模型基于Keye--VL 67.1B 8B作为基座
-val='' src='https://img.36krcdn.com/hsossms/2' alt='智东西 Verifier模型精度'/>
本文由主机测评网于2026-05-14发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545285.html