智东西11月28日消息,今日,快手正式宣布开源其最新研发的旗舰级多模态大模型——Keye-VL-671B-A37B。该模型基于DeepSeek-V3-Terminus打造,拥有惊人的6710亿参数,在保持基础模型通用性能的同时,针对视觉感知、跨模态对齐和复杂推理链路进行了深度优化,展现出卓越的多模态理解和复杂推理能力。
Keye-VL-671B-A37B的性能究竟有多出色?我们不妨通过几个实际案例来一探究竟。下图中有几张电影票?大多数人第一眼可能会脱口而出:“三张。”
然而,Keye-VL-671B-A37B的观察更为细致。结合票据上的文字信息,它能够准确判断出图中实际上只有两张电影票,最上面那张其实是爆米花小吃券。通过查看模型的思考过程,可以发现它不仅精准识别了画面中每张票据的文字、标识和版式差异,还能进一步推理:左侧和中间的票据符合电影票的核心特征(如有座位号、影片信息),而右侧票据缺少座位信息和影片场次标注,实为叠放的食品兑换券,并非电影票。
除了图像理解,Keye-VL-671B-A37B同样具备强大的视频理解和推理能力。当被问及下方视频的镜头是如何变化时,它能精准识别出“蓝色双层电车”、“Louis Vuitton”、“Tiffany & Co”等核心元素,并详细描述镜头转换的细节。
快手公布了Keye-VL-671B-A37B与其他视觉语言模型的性能对比。在通用视觉理解和视频理解两大核心领域,Keye-VL-671B-A37B的整体表现均超越了字节的Seed1.5-VL think、阿里的Qwen3-VL 235B-A22B等前沿模型。
在涵盖STEM、推理、通用问答、视频理解、OCR和纯文本等能力的26项主流基准测试中,Keye-VL-671B-A37B一举斩获18项最高得分,展现出全面的技术优势。
目前,Keye-VL-671B-A37B已正式开源,开发者可通过Hugging Face和GitHub下载体验。
Github:
https://github.com/Kwai-Keye/Keye
HuggingFace:
https://huggingface.co/Kwai-Keye/Keye-VL-671B-A37B
Keye-VL-671B-A37B采用DeepSeek-V3-Terminus作为大语言模型基座,赋予其强大的文本推理能力;视觉模型则采用Keye-ViT初始化,该组件源自快手今年9月开源的Keye-VL-1.5(80亿参数,支持128k tokens扩展上下文)。视觉和语言模块通过MLP层进行桥接,实现高效融合。
模型的预训练分为三个阶段,旨在系统化构建多模态理解与推理能力。快手复用了Keye-VL-1.5的视觉编码器,该编码器已在8B规模模型上用1T token的多模态数据完成对齐,具备扎实的基础感知能力。快手仅筛选了约300B高质量数据进行预训练,与其他动辄万亿级数据的大模型相比,这一策略显著降低了计算成本,同时确保视觉理解能力的高效构建。
预训练三步走策略如下:
第一阶段:冻结ViT和LLM,仅训练随机初始化的Projector,实现视觉与语言特征的初步对齐。
第二阶段:解冻全部参数进行全面预训练。
第三阶段:在更高质量的数据上进行退火训练,提升模型的细粒度感知能力。此阶段引入了DeepSeek-V3-Terminus生成的思维链数据,在强化视觉感知的同时,保留了强大的推理能力。
整个预训练数据通过自动化数据管线构建,经过严格过滤、重采样,并加入VQA数据增强,覆盖OCR、图表、表格等复杂视觉格式,显著提升了模型的感知质量和泛化能力。
Keye-VL-671B-A37B的后训练包括监督微调(SFT)、冷启动和强化学习三个阶段,训练任务涵盖视觉问答、图表理解、富文本OCR、数学、代码、逻辑推理等。
在SFT阶段,技术团队引入了大量多模态和纯文本长思维链数据,对模型的纯文本能力进行回火,并增强多模态能力。冷启动阶段采用推理数据增强模型的推理能力;强化学习阶段则使用复杂推理数据提升模型的思考与非思考能力,并加入视频数据增强视频理解。
团队对数据集中指令数据与长思维链数据的配比进行了反复实验,发现混合模式(Instruct + Long-CoT)相较于单一指令模式具有明显优势:在SFT数据集中加入更多长思维链推理数据,不仅提升了模型整体性能,还改善了后续训练的稳定性。
loss曲线显示,加入更多CoT数据后,冷启动阶段的训练loss显著降低。
多个基准测试的性能对比也证实,混合CoT数据训练的模型相比纯指令微调模型取得了明显性能提升。
在冷启动阶段,CoT数据的质量至关重要。为缓解纯文本模型推理中常见的冗长和重复问题,团队开发了严格的数据筛选流程,过滤掉存在冗余反思行为的思维链。
在Keye-VL-1.5-8B上的实验结果显示,过滤冗余数据对模型的推理能力和感知能力均有增益。
在强化学习阶段,快手未采用传统的GRPO算法,因其在训练MoE模型时存在不稳定性。团队选择了GSPO(Group Sequence Policy Optimization)作为底层强化学习算法,进行序列层建模,以提升可验证奖励强化学习(RLVR)的训练稳定性。该算法也是阿里Qwen3系列模型的核心算法之一。
奖励信号的质量对强化学习至关重要。为此,快手训练了专门的Verifier(验证器)模型,用于验证模型输出思考过程的逻辑性以及最终答案与标准答案的一致性。Verifier模型以Keye-VL-1.5 8B为基座,训练过程包括SFT和RL两个阶段。
在SFT阶段,既有简单的二分类任务(直接判断答案是否与参考答案一致),也有更复杂的分析任务,需要Verifier模型采用think-answer格式分析模型回复的逻辑性和正确性。
在RL阶段,团队首先在大规模偏好数据上训练,然后利用人工标注的高质量数据集进行退火,提高Verifier模型的精度。
为考察Verifier模型的检测精度,团队抽取了10000条训练数据及模型生成的答案,对比Verifier模型和Qwen-2.5-VL 72B Instruct模型的检测精度。在人工抽样的150条Keye-Verifier与Qwen判别结果不一致的数据中,Keye正确的数量达到128条,Qwen仅22条。
基于Keye-VL-preview的预实验显示,Keye-Verifier提供的奖励信号相对于基于规则匹配的奖励信号,使Keye-VL-preview在多个开源感知benchmark上的平均准确率提升了1.45%,在三个多模态数学数据集上的平均准确率提升了1.33%。
为筛选高难度样本,快手利用Keye-VL-1.5-8B作为过滤器,在候选数据集上采样并用Verifier模型计算准确率,仅保留正确率在25%~75%之间的数据用于训练。RL数据集中还加入了更多视频数据以增强视频理解能力。
快手表示,未来Keye-VL系列模型将在提升基础能力的同时,进一步融合多模态Agent能力,向更“会用工具、能解复杂问题”的形态演进。模型的多轮工具调用能力将得到增强,使其能够在真实任务中自主调用外部工具,完成搜索、推理、整合等复杂操作。
同时,快手还将推进“think with image”、“think with video”等关键方向,使模型不仅能看懂图像与视频,还能围绕它们进行深度思考与链式推理,在复杂的视觉信号中发掘关键信息。最终目标是打造出更通用、更可靠、更强推理的下一代多模态系统。
(网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)
本文由主机测评网于2026-02-22发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260226579.html