当前位置：首页 > 科技资讯 > 正文

大模型安全：内生风险与信任危机并存的挑战

主机测评网
科技资讯
2026-05-11
888

2025年3月，国家网络安全通报中心紧急发布预警，指出开源大模型工具Ollama存在严重漏洞，可能引发数据泄露、算力盗取和服务中断等安全风险，这些风险极有可能导致网络和数据安全事件。同年6月，英国高等法院发现数十份法律文书中存在由ChatGPT生成的虚构判例，其中一起高额索赔案件中，多项判例引用均为伪造……

随着大模型以“基础设施”的姿态渗透到各种关键领域，其固有的数据安全、算法鲁棒性和输出可信度等“内生风险”已从理论隐患转变为现实威胁，甚至威胁到公共利益与社会秩序。

在今年世界互联网大会乌镇峰会期间，360安全发布了《大模型安全白皮书》，书中提到当前大模型安全漏洞呈指数级增长。令人震惊的是，2025年国内首次AI大模型实网众测发现了281个安全漏洞，其中大模型特有漏洞占比超过60%。

无论是企业在面对漏洞时的被动修复，还是行业缺乏覆盖全链路的风险管控工具，都使得大模型安全防护陷入了“事后补救”的困境。近日，安远AI推出了一款前沿AI风险监测平台，这是专注于评估与监测前沿AI模型灾难性风险的第三方平台。通过基准测试和数据分析，该平台对全球15家领先模型公司的大模型滥用和失控风险进行针对性评估和定期监测，动态掌握AI模型风险现状及其变化趋势，为破解大模型“带病运行”难题提供了方向。

诚实性不足或引发信任危机

在大模型的实际应用中，数据泄露、输出误导和内容违规等安全风险频发，暴露了基础设施防护的薄弱环节。金融和医疗两大场景中，“Prompt误喂”事件频发：员工将包含客户身份证和病史的完整字段直接粘贴进对话框，模型在后续回答中吐出敏感片段，被合作方爬虫截获。这并非模型“偷数据”，而是缺少“敏感实体识别+对话级脱敏”的实时闸口。

在前沿AI风险监测平台上线的同时，该平台的第一份监测报告《前沿AI风险监测报告（2025Q3）》也同期发布。报告针对中国、美国、欧盟的15家领先AI公司过去一年发布的50个前沿大模型，从网络攻击、生物风险、化学风险和失控四个领域进行了风险监测。数据显示，过去一年发布的模型风险指数持续攀升，网络攻击领域的累积最大风险指数比一年前增长了31%，生物风险领域增长38%，化学风险领域增长17%，失控领域更是增长了50%。

大模型安全：内生风险与信任危机并存的挑战大模型安全内生风险信任危机 AI智能体第1张

图源：unplash

安远AI安全研究高级经理王伟冰表示，在能力—安全二维坐标下，推理模型的整体能力分显著高于非推理模型，但在安全分上，推理模型与非推理模型的分布范围高度重叠，并未有明显的整体提升。这一现象表明行业存在“重能力迭代、轻安全建设”的倾向，导致在能力提升的同时，风险敞口也随之扩大。

此外，大模型的诚实性也是不容忽视的问题。当大模型频繁出现诚实性问题时，不仅会逐渐瓦解用户对AI工具的基本信任，也会增加潜在的AI失控风险。前沿AI风险监测平台采用模型诚实性评估基准MASK进行监测，结果显示只有4个模型得分超过80分，同时有30%的模型得分不到50分。

“模型的诚实性与失控风险相关性较高。”王伟冰说，“即便得分80分也不能代表‘安全达标’，就好比企业招聘员工时如果员工有20%的概率会在工作中弄虚作假，依然会给企业带来很大的风险。”

安全“体检”五步走

大模型的安全早已不是单纯的技术问题，而是关乎社会运转、公众权益与产业根基的核心议题。国家层面也高度重视人工智能的风险监测、评估与预警工作。2025年10月，《中华人民共和国网络安全法》在修订中进一步强调“加强风险监测评估和安全监管，促进人工智能应用和健康发展”。

“大模型能力与风险变化极快，能力的快速增强也让其被滥用的风险随之增加，但当前缺乏快速感知这类风险变化的手段。”王伟冰表示，“此外，当前大模型风险评估多由厂商自行开展，但仍有不少厂商未发布评估报告，导致其风险情况不明确。即便有自评报告的厂商，评估标准也不统一，具体评估内容透明度低，难以判断评估合理性与风险判断准确性。”

就像给大模型做一次“体检”，据了解，安远前沿AI风险监测平台的评估方法主要分为五个步骤：首先是定义风险领域；其次是选择测评基准；第三步是选择前沿模型；第四步是运行基准测试；最后是计算指标。通过这些步骤可以全面评估大模型的安全状况。

大模型安全：内生风险与信任危机并存的挑战大模型安全内生风险信任危机 AI智能体第2张