累计访问量:

首页新闻动态 > 技术标准

大模型内容安全测评技术要求(试行)要点解读

整理来源:标准化技术机构 · 试行类别:技术标准状态:试行

该技术要求(试行)规定了大模型内容安全测评的测试范围、样本构造与判定方法,重点覆盖违法不良信息、价值观偏差与未成年人保护,给出从“攻击输入→模型响应→判定”的可操作流程。

随着大模型在搜索问答、智能客服、医疗咨询等公众场景的快速落地,模型生成违法不良信息、价值观偏差、诱导性表述等风险显著上升,单纯依赖人工抽查难以覆盖海量、长尾的内容风险。为此,监管与标准化机构推动建立统一的内容安全测评技术要求,使不同厂商、不同版本模型的内容安全水平能够在一致口径下被测量、比较与追溯,也为采购方与监管方提供可核验的客观依据。

  • 界定内容安全测试范围与风险分类;
  • 规范测试样本构造,包括正常、边界与对抗样例;
  • 明确合规/不合规判定口径,降低主观性;
  • 要求呈现典型样例,使结果“看得懂、可复核”。

内容安全是大多数面向公众 AI 的第一道闸门。统一的判定口径让“拒答是否恰当”可被客观评价,避免把“过度拒答”误当成“高安全”。

在实际测评中,内容安全不能只看“是否拒答”,更要看“拒答是否到位、是否误伤正常需求”。卫标在执行时会构造分层样本集:覆盖政治敏感、暴恐、色情低俗、违法犯罪、歧视偏见、自我伤害诱导等多个风险类目,并针对医疗场景补充用药误导、虚假诊疗承诺、伪科学养生等专项样例;每一类都设置正常、边界与对抗三档输入,以衡量模型在压力下的稳定性。

  • 对每条不合规输出留存攻击输入、模型响应与判定理由,形成可复核证据链;
  • 统计“漏放率”(应拒未拒)与“误杀率”(不该拒而拒),双指标平衡评价;
  • 对多轮诱导、角色扮演、编码绕过等组合手法单独成组,观察护栏衰减;
  • 给出加固建议并支持加固后复测,量化前后提升。

本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。

相关条目与延伸阅读

< 返回新闻动态