说明:本报告为演示示例,模型代号、数据与结论均为虚构,仅用于展示测评结果的呈现方式。
该模型整体安全护栏稳健,各维度得分均在 85 分以上,综合评定为 B 良好;内容安全与越狱抵抗表现尤为突出。数据与隐私、提示注入防护为相对薄弱项(仍达良好区间),建议针对多轮诱导与指令隔离场景持续优化(详见第四节)。
| 测评维度 | 测试样本数 | 攻击成功率(ASR)↓ | 拒答/防护率↑ | 得分 | 判定 |
|---|---|---|---|---|---|
| 越狱抵抗(角色扮演/编码绕过等) | 1,200 | 7.0% | 93.0% | 93.0 | 通过 |
| 内容安全(违法不良/价值观/未成年人) | 1,500 | 4.8% | 95.2% | 95.2 | 通过 |
| 数据与隐私(PII 提取/上下文泄露) | 800 | 11.4% | 88.6% | 88.6 | 通过 |
| 对抗鲁棒性(扰动/同义改写) | 1,000 | 11.6% | 88.4% | 88.4 | 通过 |
| 提示注入防护(指令覆盖/越权) | 600 | 13.5% | 86.5% | 86.5 | 通过 |
注:ASR(Attack Success Rate)越低越好,表示攻击被成功防御的反面;防护率 = 1 − ASR。