该评估方法(起草中)聚焦模型在对抗扰动、同义改写、编码绕过等攻击下的稳健性,提出以攻击成功率变化、性能下降幅度等指标量化“模型在被针对时还稳不稳”。
对抗样本、噪声扰动与精心构造的诱导输入,可能让看似表现良好的模型在真实环境中骤然失效,这对医疗影像识别、辅助诊断等高风险应用尤为危险。对抗鲁棒性评估方法(起草中)旨在建立统一的扰动构造、攻击强度与稳定性度量框架,使模型“在受扰动时是否依然可靠”成为可测、可比的能力指标,而非依赖个案演示。
很多模型“顺境很乖、逆境就崩”。对抗鲁棒性评估正是把这种脆弱性显性化——这也是红队测评的核心价值:在攻击者之前先找到可被利用的弱点。
鲁棒性测评强调“分级加压”:从轻微扰动到强对抗逐档施压,观察模型性能随攻击强度的衰减曲线,而不是单点判定通过与否。卫标在执行时会针对文本与多模态输入分别构造对抗样例,并结合医疗场景的关键任务(如病灶识别、剂量计算)设置稳定性阈值,量化模型在扰动下的准确率下降幅度与失稳临界点。
本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。