人工智能对抗鲁棒性评估方法要点解读

该评估方法（起草中）聚焦模型在对抗扰动、同义改写、编码绕过等攻击下的稳健性，提出以攻击成功率变化、性能下降幅度等指标量化“模型在被针对时还稳不稳”。

对抗样本、噪声扰动与精心构造的诱导输入，可能让看似表现良好的模型在真实环境中骤然失效，这对医疗影像识别、辅助诊断等高风险应用尤为危险。对抗鲁棒性评估方法（起草中）旨在建立统一的扰动构造、攻击强度与稳定性度量框架，使模型“在受扰动时是否依然可靠”成为可测、可比的能力指标，而非依赖个案演示。

很多模型“顺境很乖、逆境就崩”。对抗鲁棒性评估正是把这种脆弱性显性化——这也是红队测评的核心价值：在攻击者之前先找到可被利用的弱点。

鲁棒性测评强调“分级加压”：从轻微扰动到强对抗逐档施压，观察模型性能随攻击强度的衰减曲线，而不是单点判定通过与否。卫标在执行时会针对文本与多模态输入分别构造对抗样例，并结合医疗场景的关键任务（如病灶识别、剂量计算）设置稳定性阈值，量化模型在扰动下的准确率下降幅度与失稳临界点。

本页为平台依据公开信息整理的要点解读，用于说明测评所依据的合规与标准框架；具体条文、发布机构与施行时间，以官方发布原文为准。