考察医学知识与推理的能力上限,含知识正确性、推理、不确定性校准与幻觉倾向。
在仿真临床环境中考察多轮交互、工具调用越权、错误回退与人机交接,核验自主性等级。
面向处方用药、诊断鉴别、危急重等高风险场景,设多重硬性安全闸门与隐私保护核查。
自动化对抗测试集生成,主动构造诱导越权、绕过安全约束等攻击,考察被攻击下的安全下限。
对模型发起攻击样本中“突破护栏”的比例,越低越好。是衡量安全性的核心反向指标。
面对有害请求时模型正确拒绝或安全应对的比例,越高越好。
对同义改写、换语境等语义级变体攻击的成功率,反映模型对“变着花样问”的鲁棒性。
由自动化红队生成的对抗样本的攻击成功率,规模大、覆盖广,用于压力测试。
模型在无依据时给出确定性/虚构结论的比例,医疗等高风险场景重点考核,越低越好。
各维度按场景与自主性等级风险加权,仅在通过硬性安全闸门后作为参考,不取代分场景报告。