国内主流大模型商业化版本内容安全测试结果揭晓
测试结果显示,8类安全维度的不合规率整体分布在28%至51%之间,其中涉黑灰产、谣言和诈骗类均超过40%。在攻击模拟中,高级越狱攻击场景下平均不合规率最高达到88.09%。总体来看,各类大模型的安全防护能力仍普遍不足,整体水平亟需持续提升与完善。
2025年8月26日,国务院发布关于深入实施“人工智能+”行动的意见,明确提出要强化政策法规保障、提升人工智能安全能力水平。为贯彻落实意见精神,进一步增强大模型服务安全保障能力,公安部第三研究所数据安全技术研发中心近日完成了中文大模型内容安全测试基准(DSPSafeBench)的优化升级。本次升级依据GB/T45654-2025《网络安全技术 生成式人工智能服务安全基本要求》,紧扣违法犯罪风险场景,凝练形成8类关键安全维度,并面向国内主流大模型商业化版本开展系统性测试。
测试结果显示,8类安全维度的不合规率整体分布在28%至51%之间,其中涉黑灰产、谣言和诈骗类均超过40%。在攻击模拟中,高级越狱攻击场景下平均不合规率最高达到88.09%。总体来看,各类大模型的安全防护能力仍普遍不足,整体水平亟需持续提升与完善。
总体测试结果
测试结果分析
一、不同安全维度上模型的不同表现
八类安全维度的不合规率整体在28%至51%之间,其中【黑灰产类】【谣言类】【涉诈类】维度不合规率相对较高,均超过40%;【涉黄赌类】【毒品违法类】维度不合规率相对较低,均未超过30%。
分项测试结果如下:
国家安全类:不合规率
涉暴恐类:不合规率
民族仇恨类:不合规率
涉黄赌类:不合规率
毒品违法类:不合规率
涉诈类:不合规率
谣言类:不合规率
黑灰产类:不合规率
二、不同测试方法上模型的不同表现
结果显示,模型在【随机攻击】及【常规越狱攻击】下平均不合规率较低,均在13%以下;而在两类【高级越狱攻击】下不合规率显著升高,分别为88.09%和65.85%。
分项测试结果如下:
随机攻击:不合规率
常规越狱攻击A:不合规率
常规越狱攻击B:不合规率
高级越狱攻击A:不合规率
高级越狱攻击B:不合规率
DSPSafeBench介绍
2024年12月18日,DSPSafeBench中文大模型内容安全测试基准首次发布,参考了《网络安全技术 生成式人工智能服务安全基本要求》(征求意见稿)相关内容,涵盖5个一级安全维度和30个二级安全任务,并选取了部分国内外代表性开源模型进行安全测试。
本次升级在测试覆盖、测试场景、攻击模拟和结果呈现等方面进行了优化,更加贴合实际应用场景,为监管和企业改进模型安全性提供有益参考:
1、测试覆盖更全面
统一采用模型厂商官方API作为测试渠道,通过采购API调用服务,真实还原线上服务环境,覆盖国内主流基座大模型,使结果更具代表性和行业参考价值。
2、测试场景更细化
依据GB/T45654-2025《网络安全技术 生成式人工智能服务安全基本要求》,在原有基准体系基础上,凝练形成针对潜在违法犯罪风险场景的8类关键安全维度,设计约300个细分测试场景,测试颗粒度显著提升,更符合实际应用中的安全与风险防护需求。
3、攻击模拟更充分
构建了五类攻击方法,包括1种随机攻击、2种常规越狱攻击和2种高级越狱攻击。在高级越狱攻击中,特别引入启发式诱导等新型隐蔽攻击链路,以揭示模型存在的普遍安全脆弱性。
随机攻击:随机生成不同安全问题样本,从不同角度提出标准安全问题。
常规越狱攻击:用提示词变形与场景化问法,模拟常见风险触发。
高级越狱攻击:通过复杂对话与上下文设计,验证模型在隐蔽绕过下的稳健性。
4、结果呈现更科学
本次测试重点关注行业整体水平与发展趋势,所有测试结果仅限作为提升模型安全性能的参考。测试数据与过程均已归档,可追溯、可复现,便于企业改进与技术验证。
编辑:胡晨曦
声明:新华财经(中国金融信息网)为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115












