当前位置：首页 > 科技资讯 > 正文

大模型安全风险深度剖析：漏洞激增、数据泄露与信任危机

主机测评网
科技资讯
2026-01-24
949

2025年3月，国家网络安全通报中心发布紧急警示，开源大模型工具Ollama被曝存在高危漏洞，可能导致敏感数据外泄、计算资源遭盗用以及服务中断等严重安全威胁，极易引发大规模网络与数据安全事故；2025年6月，英国高等法院在审理案件时发现，数十份法律文书中掺杂了ChatGPT生成的虚构判例，尤其在一桩高额索赔案中，多项引用的案例均系伪造……

随着大模型以“数字基础设施”的身份深入金融、医疗、司法等关键领域，其自身存在的数据安全隐患、算法稳定性问题以及输出内容可信度等“内生风险”已从理论探讨演变为现实挑战，直接关系到公共安全与社会秩序稳定。

在今年世界互联网大会乌镇峰会期间，360安全团队发布的《大模型安全白皮书》指出，当前大模型安全漏洞数量呈现指数级攀升趋势，2025年国内首次开展AI大模型实网众测，共发现281个安全漏洞，其中超过60%属于大模型特有漏洞类型。

面对漏洞频发，企业往往处于被动修复状态，而行业层面又缺乏覆盖训练、部署、应用全链路的风险管控工具，这使得大模型安全防护陷入“事后补救”的循环。近日，安远AI推出了前沿AI风险监测平台，该平台专注于评估与监控前沿AI模型的灾难性风险，作为第三方独立机构，通过基准测试与数据分析，对全球15家领先模型公司的前沿大模型在滥用与失控方面的风险进行针对性评估与定期追踪，动态掌握AI模型风险现状及其演变趋势，为解决大模型“带病上岗”问题提供新思路。

诚实性不足或引发信任危机

在实际应用场景中，大模型最常出现的安全风险类型有哪些？多位行业专家指出，数据泄露、输出误导信息、内容违规等问题较为突出，暴露出底层防护体系的薄弱环节。

“数据泄露依然是高频发生的‘灰犀牛’事件。”眺远咨询董事长兼CEO高承远向《IT时报》记者透露，近期在金融和医疗领域发生了三起典型的‘Prompt误喂’事故：员工将包含客户身份证号、病历详情等完整字段的数据直接粘贴至对话窗口，模型在后续响应中完整输出了敏感片段，进而被合作方的爬虫程序捕获。究其根源，并非模型主动“窃取”数据，而是系统缺乏“敏感实体识别与对话级实时脱敏”的拦截机制。

在前沿AI风险监测平台上线的同时，其首份监测报告《前沿AI风险监测报告（2025Q3）》同步发布，报告针对中美欧15家领先AI公司过去一年发布的50个前沿大模型，从网络攻击、生物风险、化学风险及模型失控四个维度进行了风险评估。

监测数据显示，过去一年新发布模型的风险指数持续攀升，网络攻击领域的累积最大风险指数较一年前增长31%，生物风险领域增长38%，化学风险领域增长17%，失控领域增幅高达50%。

大模型安全风险深度剖析：漏洞激增、数据泄露与信任危机大模型安全数据泄露 AI风险监测信任危机第1张

图源：unplash

安远AI安全研究高级经理王伟冰表示，在能力与安全构成的二维评估体系中，推理模型的整体能力得分显著高于非推理模型，但在安全得分上，两类模型的分布区间高度重叠，未见明显优势。这一现象揭示了行业普遍存在“重能力进化、轻安全加固”的倾向，导致模型能力提升的同时，风险暴露面也在同步扩大。

此外，大模型的诚实性问题同样值得关注。当模型频繁出现事实性错误或虚构内容，不仅会逐步侵蚀用户对AI工具的基本信任，还可能加剧AI失控的潜在风险。

前沿AI风险监测平台采用模型诚实性评估基准MASK进行测评，结果显示，仅有4个模型得分超过80分，同时有30%的模型得分低于50分。

“模型的诚实性与失控风险之间存在较高关联性。”王伟冰解释道，即便得分达到80分也不意味着“安全达标”，就好比企业雇佣员工，如果该员工有20%的概率在工作中弄虚作假，仍将给企业带来巨大运营风险。

“诚实性评估框架已初步建立，但‘风险预警’仍半依赖人工。”高承远进一步分析，部分头部云服务商在模型输出层增加了“置信度回读”模块，对自相矛盾、事实偏差度超过阈值的回答自动标记，再转入人工复核流程。然而，该方法在固定场景下效果较好，一旦模型处理开放域问题，误报率会显著上升。

安全“体检”五步走

大模型安全已超越纯技术范畴，成为关乎社会运行、公众权益与产业健康发展的核心议题。国家层面高度重视人工智能风险监测、评估与预警体系建设，2025年10月，《中华人民共和国网络安全法》在修订中进一步强调“强化风险监测评估与安全监管，促进人工智能应用健康有序发展”。

“大模型能力与风险演变速度极快，能力的飞速提升也使其被恶意滥用的风险水涨船高，但目前行业缺乏快速感知此类风险动态的工具。”王伟冰指出，此外，当前大模型风险评估多由厂商自行开展，仍有不少厂商未公开发布评估报告，导致其风险状况不透明。即便有自评报告的厂商，评估标准也各不相同，具体评估内容透明度低，难以判断评估的合理性与风险判断的准确性。

如同为大模型进行一次全面“体检”，安远前沿AI风险监测平台的评估方法主要分为五个步骤：首先是界定风险领域，当前聚焦于网络攻击、生物风险、化学风险和模型失控这四个最受关注的灾难性风险领域；其次是选取测评基准，针对每个领域从“能力”和“安全”两个维度筛选多个高质量公开基准，能力基准用于评估模型可能被恶意利用的潜能，安全基准则用于评估模型的安全防护机制与内在倾向；第三步是筛选前沿模型，为有效覆盖技术前沿，仅选取每家领先模型公司发布的“突破性模型”；第四步是运行基准测试，在统一参数设置下对所有模型进行测试，确保评估的公平性与客观性；最后是计算综合指标，依据测试结果计算出每个模型在各领域的能力分、安全分及风险指数。

大模型安全风险深度剖析：漏洞激增、数据泄露与信任危机大模型安全数据泄露 AI风险监测信任危机第2张

图源：unplash

“较为理想的状况是，大模型厂商在提升模型性能的同时，能够同步加强安全风险防范能力，将风险控制在可接受范围内。”王伟冰补充道。

“写邮件”成“自动转账”

显而易见，未来大模型安全风险将随着AI智能体、多模态模型的演进呈现出新形态。王伟冰认为，一方面，AI智能体能够处理复杂多步任务、借助外部工具扩展能力，多模态模型则融合视觉、听觉等多维感知，二者更强的能力可能被恶意用户用于实施危害性更大的行动；另一方面，新形态也暴露出更多攻击面，例如多模态模型可能存在“多模态越狱”风险（如在图片中嵌入人眼不可见的文字指令，诱导模型执行有害任务），安全挑战显著加剧。

针对这些新型风险，安远团队正计划重点研发AI智能体测评框架，以评估其能力与安全性。测评智能体需要提供网页浏览、信息搜索、代码执行等多种工具调用能力，且测评过程涉及多轮交互，流程更为复杂、易出错，测评难度更高，但这符合未来对智能体安全评估的刚性需求。

高承远预测，未来12至24个月内，最需警惕的是“模型供应链投毒”与“自主智能体滥用”两类风险，“前者可能发生在预训练数据、微调插件、量化工具链等任一环节，模型被污染后表面运行正常却暗藏后门；后者指智能体具备工具调用能力后，可能将‘撰写邮件’这类简单指令升级为‘自动执行转账’等高风险操作。”

大模型风险的复杂性决定了单一平台难以全面覆盖，需依靠技术创新与行业标准协同推进。多位业内人士指出，“技术迭代速度远超治理节奏”的矛盾日益凸显，攻击者利用大模型能力生成新型攻击手段的周期不断缩短，而行业从风险发现、防护方案制定到标准规范形成，往往需要数月甚至更长时间，这种“时间差”使得许多企业陷入“被动防御”的困境。

高承远强调，安全治理的最大痛点在于“三不管”地带：数据权属、模型责任界定、应用边界划分缺乏统一标准，导致出现“监管等待标准、标准等待实践、实践等待监管”的闭环。破解之道在于将“谁受益谁负责”原则货币化，要求模型提供方根据调用量向第三方托管风险准备金，实现先行赔付、事后追责，从而倒逼企业增加安全投入。

图片／ unsplash 即梦AI