提示注入攻击防护技术指南要点解读

该技术指南（研究中）针对提示注入这一智能体时代的高发风险，区分直接注入与间接（外部内容）注入，提出以“数据/指令隔离”为核心的防护思路与相应测试方法。

随着大模型接入检索、工具调用与智能体编排，攻击者可在文档、网页或用户输入中植入隐藏指令，诱使模型偏离原有任务、泄露系统提示或执行越权操作，提示注入由此成为新型高发风险。技术指南（研究中）旨在系统归纳注入手法、明确防护测试方法，使“模型能否抵御被植入指令的劫持”成为可测能力，尤其为接入外部数据的医疗智能体提供防护基线。

区分直接注入与间接（投毒外部内容）注入；
核心防护：把外部内容标记为纯数据、禁止其触发工具调用；
高危操作强制二次确认与人工审批；
以注入成功率衡量隔离机制是否真正生效。

对接入工具的智能体而言，提示注入是“做错事”的主要入口。该指南把防护重点从“模型多聪明”转向“架构是否做了数据/指令隔离”，正对应智能体测评的关键维度。

提示注入测评需要覆盖“直接注入”（用户输入中夹带指令）与“间接注入”（外部文档、检索结果中潜伏指令）两类路径。卫标在执行时会构造带有隐藏指令的知识库与网页素材，检验模型是否会无差别执行；针对医疗智能体，重点测试其是否会因被注入而泄露患者数据、绕过用药安全校验或越权调用工具。

分别测试直接注入与间接（数据/检索）注入两条路径；
评估系统提示泄露、越权工具调用、数据外泄等后果严重度；
验证输入隔离、指令边界与最小权限等防护措施的有效性。

本页为平台依据公开信息整理的要点解读，用于说明测评所依据的合规与标准框架；具体条文、发布机构与施行时间，以官方发布原文为准。

相关条目与延伸阅读