小红书Hi Lab开源多模态大模型Dots.vlm1，视觉与文本理解能力再升级

主机测评网
科技资讯
2026-04-20
316

智东西8月7日报道，小红书hi lab（人文智能实验室）宣布开源其首款多模态大模型Dots.vlm1。该模型基于DeepSeek V3构建，并集成了由小红书自研的12亿参数视觉编码器NaViT，展现出强大的多模态理解与推理能力。

hi lab指出，在主流视觉评测集上，Dots.vlm1的整体表现已逼近当前顶尖模型，如Gemini 2.5 Pro与Seed-VL1.5 thinking，尤其在MMMU、MathVision、OCR Reasoning等多个基准测试中展现出卓越的图文理解与推理能力。

这款模型能够解析复杂的图文交错图表，理解表情包背后的含义，对比两款产品的配料表差异，甚至能识别博物馆中文物、画作的名称及背景信息。

小红书Hi Lab开源多模态大模型Dots.vlm1，视觉与文本理解能力再升级多模态大模型 DeepSeek V3 视觉编码器强化学习第1张

在文本推理任务（如AIME、GPQA、LiveCodeBench）中，Dots.vlm1的表现与DeepSeek-R1-0528相当，在数学和代码能力上已具备通用性，但在GPQA等更多样化的推理任务上仍有待提升。

小红书Hi Lab开源多模态大模型Dots.vlm1，视觉与文本理解能力再升级多模态大模型 DeepSeek V3 视觉编码器强化学习第2张

尽管Dots.vlm1在视觉多模态能力上已接近最佳性能（SOTA）水平，在文本推理方面达到了主流模型的性能，但hi lab也强调，该模型在部分细分任务上仍需优化，包括架构设计与训练数据的改进。

目前，Dots.vlm1已上传至开源托管平台Hugging Face，用户可通过Hugging Face上的体验链接免费试用这一模型。

今年6月6日，小红书曾开源其首款大语言模型，随后又相继开源了用于OCR的专用模型及视觉、奖励模型等前沿研究成果。作为大模型领域的新晋玩家，其后续动作备受期待。

开源地址：点击访问

体验链接：点击体验

01. 解读复杂图表与视觉谜题

智东西体验Dots.vlm1的多模态理解能力

我们将OpenAI昨日开源模型的体验网页截图上传给Dots.vlm1，要求其解读图片的核心信息。结果显示，Dots.vlm1准确识别了图中的大部分信息，并能通过右侧的代码推测出代码可视化后的效果。不过，可能是OCR环节出了问题，它将一款模型的参数量误判了。

小红书Hi Lab开源多模态大模型Dots.vlm1，视觉与文本理解能力再升级多模态大模型 DeepSeek V3 视觉编码器强化学习第3张

官方Demo案例中，Dots.vlm1读懂了文本交错的英文图表，准确理解图标元素间的关系，并计算出了用户询问的数据。

小红书Hi Lab开源多模态大模型Dots.vlm1，视觉与文本理解能力再升级多模态大模型 DeepSeek V3 视觉编码器强化学习第4张

在数学能力方面，Dots.vlm1能理解几何题中的图形及颜色信息，并据此解题得出正确答案。

小红书Hi Lab开源多模态大模型Dots.vlm1，视觉与文本理解能力再升级多模态大模型 DeepSeek V3 视觉编码器强化学习第5张

02. 基于DeepSeek V3构建

NaViT视觉编码器实现多模态感知

Dots.vlm1由三个核心组件构成：一个拥有12亿参数的NaViT视觉编码器、一个轻量级的MLP适配器及DeepSeek V3 MoE大语言模型。该架构通过三阶段流程进行训练：

（1）视觉编码器预训练

NaViT编码器由hi lab从头训练，旨在最大化对多样视觉数据的感知能力。该编码器包含42层Transformer，采用RMSNorm、SwiGLU和二维旋转位置编码（2D RoPE）等技术。预训练过程中，NaViT编码器采用双重监督策略——下一Token预测（NTP）和下一Patch生成（NPG），前者通过大量图文对训练模型的感知能力；后者则利用纯图像数据通过扩散模型预测图像patch，增强空间与语义感知能力。训练过程中使用了大量图文对。

（2）VLM预训练

在这一阶段，hi lab将视觉编码器与DeepSeek V3联合训练，使用大规模、多样化的多模态数据集进行训练。这些数据集包括跨模态互译数据和跨模态融合数据。跨模态互译数据用于训练模型将图像内容用文本进行描述、总结或重构；跨模态融合数据则用于训练模型在图文混合上下文中执行下一token预测。

（3）VLM后训练

hi lab通过有监督微调（SFT）增强Dots.vlm1模型的泛化能力。然而，hi lab也指出该模型在视觉感知与推理能力上仍有不足。