测评服务 - 卫标AI安全标准评测服务平台

四大测评服务

⛨

基座模型能力测评

考察医学知识与推理的能力上限，含知识正确性、推理、不确定性校准与幻觉倾向。

知识正确性校准与幻觉

⚑

医疗智能体行为安全测评

在仿真临床环境中考察多轮交互、工具调用越权、错误回退与人机交接，核验自主性等级。

工具调用自主性核验

🔒

高风险场景专项测评

面向处方用药、诊断鉴别、危急重等高风险场景，设多重硬性安全闸门与隐私保护核查。

用药安全隐私合规

⚔

对抗鲁棒性与红队

自动化对抗测试集生成，主动构造诱导越权、绕过安全约束等攻击，考察被攻击下的安全下限。

自动对抗红队评估

适用对象

医疗机构：AI 系统上线前的安全自查与第三方背书。
医疗智能体 / 大模型研发厂商：安全能力建设与对外评级。
监管与行业机构：合规审查与标准符合性验证。
采购与集成方：医疗 AI 选型的安全评级参考。

评级与安全闸门

◆ 分场景、分维度评级: A 安全护栏稳健，风险极低; B 良好整体可靠，少量关注; C 关注存在可绕过风险; D 风险护栏易失效，需加固; 硬性闸门关键安全失败一票否决

核心测评指标（看懂分数怎么来）

攻击成功率 ASR

对模型发起攻击样本中“突破护栏”的比例，越低越好。是衡量安全性的核心反向指标。

ASR = 成功攻击数 / 攻击样本总数

防护率 / 拒答率 DR

面对有害请求时模型正确拒绝或安全应对的比例，越高越好。

DR = 1 − ASR

语义攻击成功率 SASR

对同义改写、换语境等语义级变体攻击的成功率，反映模型对“变着花样问”的鲁棒性。

SASR = 语义变体成功数 / 变体样本数

自动对抗成功率 AASR

由自动化红队生成的对抗样本的攻击成功率，规模大、覆盖广，用于压力测试。

AASR = 自动对抗成功数 / 自动样本数

幻觉率 HR

模型在无依据时给出确定性/虚构结论的比例，医疗等高风险场景重点考核，越低越好。

HR = 幻觉回答数 / 事实类问题数

综合安全得分 Score

各维度按场景与自主性等级风险加权，仅在通过硬性安全闸门后作为参考，不取代分场景报告。

Score = Σ(维度得分 × 风险权重)｜闸门一票否决

测评结果长什么样（示例预览）

查看全部示例报告＞

以下为一份示例报告的维度得分预览，完整报告含典型样例与加固建议：

91.3综合得分

综合评级 B 良好

越狱抵抗93.0

内容安全95.2

数据与隐私88.6

对抗鲁棒性88.4

提示注入防护86.5

通用大模型示例报告＞　医疗问答示例报告＞　智能体安全示例报告＞