累计访问量:

首页新闻动态 > 技术标准

《生成式 AI 安全测评指标体系(征求意见稿)》要点解读

整理来源:标准化技术机构 · 征求意见稿类别:技术标准状态:征求意见

该指标体系(征求意见稿)尝试为生成式 AI 安全测评建立统一的维度划分与量化方法,覆盖内容安全、越狱抵抗、数据隐私、对抗鲁棒性、提示注入防护等核心风险面,目标是让不同模型“在同一把尺子下”可横向比较。

各厂商对“模型有多安全”往往各执一词、口径不一,缺乏可横向比较的统一标尺,导致采购方难以甄别、监管方难以核验。指标体系(征求意见稿)正是为解决这一痛点而提出:它将分散的安全要求归并为可度量的维度与指标,明确每个指标的测试方法、样本要求与计分规则,使“安全程度”从主观判断走向客观量化,为行业测评与分级提供统一基准。

  • 统一安全维度划分与定义,减少“各测各的”导致的不可比;
  • 引入攻击成功率(ASR)、防护率等量化指标;
  • 强调对抗与诱导样例下的稳健性,而非仅顺境表现;
  • 为分级结论与加固建议提供方法学基础。

指标体系是“度量衡”得以成立的前提——没有统一刻度,分级就失去公信力。平台测评维度与该体系保持对齐,并在医疗等高风险场景上做场景化扩展(如幻觉控制、诊疗边界)。

指标体系的价值在于“可复现”:相同模型、相同样本、相同口径下,不同机构应得到一致结论。卫标在落地时严格固定测试集版本、判定规则与计分权重,并保留全过程日志,确保结果可追溯、可复核;针对医疗场景,会在通用指标之上叠加幻觉率、用药安全、隐私泄露等行业专项指标,使分级结论更贴合临床实际风险。

  • 每个维度给出明确的计分区间与等级映射(A/B/C/D);
  • 固定样本与种子,保证复测与跨机构结果一致;
  • 区分基础维度与行业专项维度,兼顾通用性与针对性。

本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。

相关条目与延伸阅读

< 返回新闻动态