随着大模型从“对话”走向“执行”,具备工具调用(function calling / tool use)能力的智能体(Agent)开始接入数据库、邮件、工单、支付等真实业务接口。多项研究表明,一旦缺乏权限边界与输入校验,攻击者即可通过提示注入诱导智能体越权调用接口,读取并外泄系统内的敏感数据。此类风险在数据高度敏感的医疗、金融行业尤为值得警惕。
与基座大模型“说错话”不同,智能体的危害是“做错事”:一次被劫持的工具调用,可能直接造成数据外泄或不可逆的业务写操作。研究归纳出三类高频路径:
医疗智能体往往同时接触电子病历、检验结果与患者身份信息,且部分场景要求一定自主性(自动开具检查建议、回填随访记录)。自主性越高、可调用的工具越敏感,单点失陷的后果越严重——轻则患者隐私外泄,重则错误写入诊疗数据。这正是“基座模型评测”之外,必须对“智能体”单独评测的根本原因。
研究建议从“数据/指令隔离”入手:把一切外部内容标记为纯数据、禁止其触发工具调用;对高危写操作与外发动作强制二次确认;建立工具白名单、参数范围校验与最小权限授权;并通过红队测试提前发现可被利用的越权与注入面。
说明:本文为行业研究综述整理示例,用于说明平台测评场景,具体研究内容请以原始发布为准。