智东西12月9日报道,近日,智谱宣布开源其GLM-4.6V系列多模态大模型,包括面向云端与高性能集群的基础版GLM-4.6V(106B-A12B)及面向本地部署与低延迟应用的轻量版GLM-4.6V-Flash(9B)。
此外,智谱还开源了AutoGLM,一个类似“豆包手机助手”的智能体,在发布时被誉为“全球首个具备手机操作能力的AI Agent”。
▲GLM-4.6V开源主页(图源:Hugging Face)
▲AutoGLM开源主页(图源:Hugging Face)
据官方介绍,GLM-4.6V能够完成智能图文混排与内容创作、识图购物与导购、前端复刻与多轮视觉交互开发以及长上下文的文档与视频理解等任务。在实际体验中,GLM-4.6V的图像搜索、全网比价以及长文本和视频的理解能力表现稳定,但图文混排能力上有所欠缺。
GLM-4.6V系列模型将训练时上下文窗口提升至128k tokens,首次在模型架构中将Function Call(工具调用)能力融入视觉模型。在性能上,GLM-4.6V系列模型在多模态交互、逻辑推理和长上下文等关键能力上取得SOTA表现。
价格方面,GLM-4.6V系列相较于GLM-4.5V降价50%,API调用价格低至输入1元/百万tokens,输出3元/百万tokens。其中,GLM-4.6V-Flash全面免费。
▲GLM-4.6V系列模型基准测试(图源:z.ai/blog/glm-4.6v)
GLM-4.6V开源地址:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-46v
魔搭社区: https://modelscope.cn/collections/GLM-46V-37fabc27818446
GLM-4.6V体验地址: https://chat.z.ai/
GLM-4.6V构建了原生多模态工具调用能力,可直接理解图像、截图、文档页面等多模态数据。然而,在生成图文并茂的微信公众号文章时,图片无法正确显示。
GLM-4.6V的识图购物与导购功能能够自动全网搜索商品并生成比价表格。但在模糊搜索和图像搜索功能方面,存在理解不到位的问题。
GLM-4.6V支持多轮视觉交互,能够逐行生成HTML代码并显示预览页面。但在更换网页图标时,会出现误生成的情况。
GLM-4.6V的长上下文理解能力得到显著提升,能够同时处理多篇中英文论文并生成清晰的学习笔记。
GLM-4.6V能够理解长视频内容并给出详细解析。但视频大小限制在200M以内。
本文由主机测评网于2026-05-23发表在主机测评网_免费VPS_免费云服务器_免费独立服务器,如有疑问,请联系我们。
本文链接:https://www.vpshk.cn/20260545948.html