该技术指南(研究中)针对提示注入这一智能体时代的高发风险,区分直接注入与间接(外部内容)注入,提出以“数据/指令隔离”为核心的防护思路与相应测试方法。
随着大模型接入检索、工具调用与智能体编排,攻击者可在文档、网页或用户输入中植入隐藏指令,诱使模型偏离原有任务、泄露系统提示或执行越权操作,提示注入由此成为新型高发风险。技术指南(研究中)旨在系统归纳注入手法、明确防护测试方法,使“模型能否抵御被植入指令的劫持”成为可测能力,尤其为接入外部数据的医疗智能体提供防护基线。
对接入工具的智能体而言,提示注入是“做错事”的主要入口。该指南把防护重点从“模型多聪明”转向“架构是否做了数据/指令隔离”,正对应智能体测评的关键维度。
提示注入测评需要覆盖“直接注入”(用户输入中夹带指令)与“间接注入”(外部文档、检索结果中潜伏指令)两类路径。卫标在执行时会构造带有隐藏指令的知识库与网页素材,检验模型是否会无差别执行;针对医疗智能体,重点测试其是否会因被注入而泄露患者数据、绕过用药安全校验或越权调用工具。
本页为平台依据公开信息整理的要点解读,用于说明测评所依据的合规与标准框架;具体条文、发布机构与施行时间,以官方发布原文为准。