智东西8月7日报道,小红书hi lab(人文智能实验室)宣布开源其首款多模态大模型Dots.vlm1。该模型基于DeepSeek V3构建,并集成了由小红书自研的12亿参数视觉编码器NaViT,展现出强大的多模态理解与推理能力。
hi lab指出,在主流视觉评测集上,Dots.vlm1的整体表现已逼近当前顶尖模型,如Gemini 2.5 Pro与Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多个基准测试中展现出卓越的图文理解与推理能力。
这款模型能够解析复杂的图文交错图表,理解表情包背后的含义,对比两款产品的配料表差异,甚至能识别博物馆中文物、画作的名称及背景信息。
在文本推理任务(如AIME、GPQA、LiveCodeBench)中,Dots.vlm1的表现与DeepSeek-R1-0528相当,在数学和代码能力上已具备通用性,但在GPQA等更多样化的推理任务上仍有待提升。
尽管Dots.vlm1在视觉多模态能力上已接近最佳性能(SOTA)水平,在文本推理方面达到了主流模型的性能,但hi lab也强调,该模型在部分细分任务上仍需优化,包括架构设计与训练数据的改进。
目前,Dots.vlm1已上传至开源托管平台Hugging Face,用户可通过Hugging Face上的体验链接免费试用这一模型。
今年6月6日,小红书曾开源其首款大语言模型,随后又相继开源了用于OCR的专用模型及视觉、奖励模型等前沿研究成果。作为大模型领域的新晋玩家,其后续动作备受期待。
开源地址:点击访问
体验链接:点击体验
我们将OpenAI昨日开源模型的体验网页截图上传给Dots.vlm1,要求其解读图片的核心信息。结果显示,Dots.vlm1准确识别了图中的大部分信息,并能通过右侧的代码推测出代码可视化后的效果。不过,可能是OCR环节出了问题,它将一款模型的参数量误判了。
官方Demo案例中,Dots.vlm1读懂了文本交错的英文图表,准确理解图标元素间的关系,并计算出了用户询问的数据。
在数学能力方面,Dots.vlm1能理解几何题中的图形及颜色信息,并据此解题得出正确答案。
Dots.vlm1由三个核心组件构成:一个拥有12亿参数的NaViT视觉编码器、一个轻量级的MLP适配器及DeepSeek V3 MoE大语言模型。该架构通过三阶段流程进行训练:
(1)视觉编码器预训练
NaViT编码器由hi lab从头训练,旨在最大化对多样视觉数据的感知能力。该编码器包含42层Transformer,采用RMSNorm、SwiGLU和二维旋转位置编码(2D RoPE)等技术。预训练过程中,NaViT编码器采用双重监督策略——下一Token预测(NTP)和下一Patch生成(NPG),前者通过大量图文对训练模型的感知能力;后者则利用纯图像数据通过扩散模型预测图像patch,增强空间与语义感知能力。训练过程中使用了大量图文对。
(2)VLM预训练
在这一阶段,hi lab将视觉编码器与DeepSeek V3联合训练,使用大规模、多样化的多模态数据集进行训练。这些数据集包括跨模态互译数据和跨模态融合数据。跨模态互译数据用于训练模型将图像内容用文本进行描述、总结或重构;跨模态融合数据则用于训练模型在图文混合上下文中执行下一token预测。
(3)VLM后训练
hi lab通过有监督微调(SFT)增强Dots.vlm1模型的泛化能力。然而,hi lab也指出该模型在视觉感知与推理能力上仍有不足。
hi lab表示,该团队计划扩大跨模态互译数据的规模与多样性,并改进视觉编码器结构。同时,hi lab将使用强化学习方法以缩小文本与多模态提示在推理能力上的差距,并探索将更多推理能力前置到预训练阶段的可能性。
本文由主机测评网于2026-04-20发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260439074.html