当前位置:首页 > 科技资讯 > 正文

小红书Hi Lab开源多模态大模型Dots.vlm1,视觉与文本理解能力再升级

智东西8月7日报道,小红书hi lab(人文智能实验室)宣布开源其首款多模态大模型Dots.vlm1。该模型基于DeepSeek V3构建,并集成了由小红书自研的12亿参数视觉编码器NaViT,展现出强大的多模态理解与推理能力。

hi lab指出,在主流视觉评测集上,Dots.vlm1的整体表现已逼近当前顶尖模型,如Gemini 2.5 Pro与Seed-VL1.5 thinking,尤其在MMMU、MathVision、OCR Reasoning等多个基准测试中展现出卓越的图文理解与推理能力。

这款模型能够解析复杂的图文交错图表,理解表情包背后的含义,对比两款产品的配料表差异,甚至能识别博物馆中文物、画作的名称及背景信息。

小红书Hi Lab开源多模态大模型Dots.vlm1,视觉与文本理解能力再升级 多模态大模型 DeepSeek V3 视觉编码器 强化学习 第1张

在文本推理任务(如AIME、GPQA、LiveCodeBench)中,Dots.vlm1的表现与DeepSeek-R1-0528相当,在数学和代码能力上已具备通用性,但在GPQA等更多样化的推理任务上仍有待提升。

小红书Hi Lab开源多模态大模型Dots.vlm1,视觉与文本理解能力再升级 多模态大模型 DeepSeek V3 视觉编码器 强化学习 第2张

尽管Dots.vlm1在视觉多模态能力上已接近最佳性能(SOTA)水平,在文本推理方面达到了主流模型的性能,但hi lab也强调,该模型在部分细分任务上仍需优化,包括架构设计与训练数据的改进。

目前,Dots.vlm1已上传至开源托管平台Hugging Face,用户可通过Hugging Face上的体验链接免费试用这一模型。

今年6月6日,小红书曾开源其首款大语言模型,随后又相继开源了用于OCR的专用模型及视觉、奖励模型等前沿研究成果。作为大模型领域的新晋玩家,其后续动作备受期待。

开源地址:点击访问

体验链接:点击体验

01.

解读复杂图表与视觉谜题

智东西体验Dots.vlm1的多模态理解能力

我们将OpenAI昨日开源模型的体验网页截图上传给Dots.vlm1,要求其解读图片的核心信息。结果显示,Dots.vlm1准确识别了图中的大部分信息,并能通过右侧的代码推测出代码可视化后的效果。不过,可能是OCR环节出了问题,它将一款模型的参数量误判了。

小红书Hi Lab开源多模态大模型Dots.vlm1,视觉与文本理解能力再升级 多模态大模型 DeepSeek V3 视觉编码器 强化学习 第3张

官方Demo案例中,Dots.vlm1读懂了文本交错的英文图表,准确理解图标元素间的关系,并计算出了用户询问的数据。

小红书Hi Lab开源多模态大模型Dots.vlm1,视觉与文本理解能力再升级 多模态大模型 DeepSeek V3 视觉编码器 强化学习 第4张

在数学能力方面,Dots.vlm1能理解几何题中的图形及颜色信息,并据此解题得出正确答案。

小红书Hi Lab开源多模态大模型Dots.vlm1,视觉与文本理解能力再升级 多模态大模型 DeepSeek V3 视觉编码器 强化学习 第5张

02.

基于DeepSeek V3构建

NaViT视觉编码器实现多模态感知

Dots.vlm1由三个核心组件构成:一个拥有12亿参数的NaViT视觉编码器、一个轻量级的MLP适配器及DeepSeek V3 MoE大语言模型。该架构通过三阶段流程进行训练:

(1)视觉编码器预训练

NaViT编码器由hi lab从头训练,旨在最大化对多样视觉数据的感知能力。该编码器包含42层Transformer,采用RMSNorm、SwiGLU和二维旋转位置编码(2D RoPE)等技术。预训练过程中,NaViT编码器采用双重监督策略——下一Token预测(NTP)和下一Patch生成(NPG),前者通过大量图文对训练模型的感知能力;后者则利用纯图像数据通过扩散模型预测图像patch,增强空间与语义感知能力。训练过程中使用了大量图文对。

(2)VLM预训练

在这一阶段,hi lab将视觉编码器与DeepSeek V3联合训练,使用大规模、多样化的多模态数据集进行训练。这些数据集包括跨模态互译数据和跨模态融合数据。跨模态互译数据用于训练模型将图像内容用文本进行描述、总结或重构;跨模态融合数据则用于训练模型在图文混合上下文中执行下一token预测。

(3)VLM后训练

hi lab通过有监督微调(SFT)增强Dots.vlm1模型的泛化能力。然而,hi lab也指出该模型在视觉感知与推理能力上仍有不足。

结语:感知推理能力仍有提升空间

下一步将探索强化学习

hi lab表示,该团队计划扩大跨模态互译数据的规模与多样性,并改进视觉编码器结构。同时,hi lab将使用强化学习方法以缩小文本与多模态提示在推理能力上的差距,并探索将更多推理能力前置到预训练阶段的可能性。