首页＞测评案例

测评案例

卫标按被测对象分三层提供 AI 安全评测——模型底座、智能体、医院应用治理，并提供可按需定制的专项评测。下列为各层示例报告与可在线体验的案例。

医疗问诊智能体

查看案例＞

一套医疗问诊智能体在卫标完成第三方安全测评的完整记录：可在线还原其问诊演示，并查看评测方法与百分制评分结果。评测过程与结果基于模拟病人数据，为展示示例；正式测评将通过医院真实脱敏数据与临床专家命题完成。

体验问诊演示查看评测结果

医疗问诊智能体 · 安全测评

三层大模型协同问诊 + 14 专科 RAG 报告解读，经五维度评分与安全硬门槛核验。

编号 WB-MAGT-2026-001层级 智能体2026-06-25

进入评测案例＞

卫标三层评测体系

AI 安全风险出现在不同的层面，因此卫标按被测对象分三层评测，越往后越贴近病人：模型底座评测底层大模型本身的内生安全；智能体评测建立在模型之上、真正执行医疗任务的系统；医院应用治理评测医疗机构把 AI 用起来的整套管理体系。前两层以 0–100 综合得分与 A/B/C/D 评级呈现，治理层以管理成熟度分级（L1–L5）与符合性核查呈现。此外，专项评测是一种聚焦单一维度的按需交付方式，可挂在前两层之下。

一、模型底座评测

评测底层大模型的内生安全与能力——越狱抵抗、内容安全、幻觉控制、数据隐私与价值观对齐，适用于通用域与医疗专科域。

通用大模型安全测评

覆盖越狱抵抗、内容安全、数据隐私、对抗鲁棒性与提示注入五大维度，含攻击样例与加固建议。

编号 WB-LLM-2026-018样本 5,1002026-06-10

查看完整示例报告＞

医疗问答大模型安全测评

聚焦医疗内容安全、幻觉控制、诊疗边界、用药安全与患者隐私，呈现医疗场景下的安全风险与就医引导。

编号 WB-MED-2026-007样本 4,1002026-05-28

查看完整示例报告＞

二、智能体评测

评测建立在模型之上、实际执行医疗或业务任务的智能体——问诊、辅助诊断、报告解读、分诊、工具调用。采用自主性分级（L0–L3）、临床风险分级与“任务完成度 + 安全硬门槛”的多维评分。

医疗问诊智能体

代替医生完成结构化问诊与综合研判，经五维度评分；含可交互的问诊演示与安全测评证书。

编号 WB-MAGT-2026-001评级 安全 A2026-06-25

进入评测案例＞

企业智能体工具调用安全

检测工具调用越权、间接提示注入、敏感数据外泄与权限边界，含攻击样例与加固建议。

编号 WB-AGT-2026-011样本 2,0002026-05-20

查看完整示例报告＞

三、医院 AI 应用治理评测

评测医疗机构把 AI 用起来的管理体系——准入与分级、数据脱敏、人机协同复核、权限控制、运行监测、应急下线与使用边界。区别于前两层，结果以管理成熟度分级（L1–L5）与分域符合性核查呈现，直接服务医院采购与上线治理。

L4成熟度 · 优化

某三甲医院 AI 应用管理体系评价

覆盖准入分级、数据脱敏、人机复核、权限、监测、应急与使用边界七大管理域，以成熟度分级与符合性核查呈现。

编号 WB-GOV-2026-003管理域 72026-06-20

查看完整示例报告＞

专项评测 · 按需定制

专项评测是一种聚焦的交付方式：只深挖单一安全维度（如内容安全、数据隐私、未成年人保护、越狱抵抗），可挂在模型底座或智能体评测之下按需定制。周期短、针对性强，适合合规急用与全面评测前的先行检测。

内容安全专项测评

针对违法不良信息、价值观偏差与未成年人保护的专项检测，样例展示拒答与安全替代回复。

编号 WB-CTS-2026-022样本 1,5002026-06-02

查看完整示例报告＞

安全评级（模型与智能体）

◆ A/B/C/D 四级 · 满分 100: A 安全（≥95）护栏稳健，风险极低; B 良好（85–94）整体可靠，少量关注; C 关注（70–84）存在可绕过风险; D 风险（<70）护栏易失效，需加固

管理成熟度（应用治理）

◆ L1–L5 五级成熟度: L1 初始制度缺失，依赖个人经验; L2 基础有基本制度，执行不一致; L3 健全制度完整，关键环节落实; L4 优化量化监测，持续改进; L5 引领全流程治理，行业标杆