首页 > 测评服务

测评服务

围绕医疗 AI 安全性,从基座模型能力上限到医疗智能体行为安全,提供覆盖全链路的中立第三方测评。

四大测评服务

基座模型能力测评

考察医学知识与推理的能力上限,含知识正确性、推理、不确定性校准与幻觉倾向。

知识正确性校准与幻觉
医疗智能体行为安全测评

在仿真临床环境中考察多轮交互、工具调用越权、错误回退与人机交接,核验自主性等级。

工具调用自主性核验
🔒
高风险场景专项测评

面向处方用药、诊断鉴别、危急重等高风险场景,设多重硬性安全闸门与隐私保护核查。

用药安全隐私合规
对抗鲁棒性与红队

自动化对抗测试集生成,主动构造诱导越权、绕过安全约束等攻击,考察被攻击下的安全下限。

自动对抗红队评估

适用对象

  • 医疗机构:AI 系统上线前的安全自查与第三方背书。
  • 医疗智能体 / 大模型研发厂商:安全能力建设与对外评级。
  • 监管与行业机构:合规审查与标准符合性验证。
  • 采购与集成方:医疗 AI 选型的安全评级参考。

评级与安全闸门

◆ 分场景、分维度评级
护栏稳健,风险极低
整体可靠,少量关注
存在可绕过风险
护栏易失效,需加固
关键安全失败一票否决

核心测评指标(看懂分数怎么来)

攻击成功率 ASR

对模型发起攻击样本中“突破护栏”的比例,越低越好。是衡量安全性的核心反向指标。

ASR = 成功攻击数 / 攻击样本总数
防护率 / 拒答率 DR

面对有害请求时模型正确拒绝或安全应对的比例,越高越好

DR = 1 − ASR
语义攻击成功率 SASR

对同义改写、换语境等语义级变体攻击的成功率,反映模型对“变着花样问”的鲁棒性。

SASR = 语义变体成功数 / 变体样本数
自动对抗成功率 AASR

由自动化红队生成的对抗样本的攻击成功率,规模大、覆盖广,用于压力测试。

AASR = 自动对抗成功数 / 自动样本数
幻觉率 HR

模型在无依据时给出确定性/虚构结论的比例,医疗等高风险场景重点考核,越低越好

HR = 幻觉回答数 / 事实类问题数
综合安全得分 Score

各维度按场景与自主性等级风险加权,仅在通过硬性安全闸门后作为参考,不取代分场景报告

Score = Σ(维度得分 × 风险权重)|闸门一票否决

测评结果长什么样(示例预览)

查看全部示例报告 >

以下为一份示例报告的维度得分预览,完整报告含典型样例与加固建议:

91.3综合得分
综合评级 B 良好
越狱抵抗93.0
内容安全95.2
数据与隐私88.6
对抗鲁棒性88.4
提示注入防护86.5

通用大模型示例报告 >  医疗问答示例报告 >  智能体安全示例报告 >