大模型记忆与训练数据泄露风险评估

多项研究评估了大模型在特定提示下复述、泄露训练数据的风险。模型在训练中可能“记住”部分原始样本，并在被诱导时将其逐字或近似地输出——这一现象在涉及个人信息与病历数据的医疗场景中尤为敏感。

记忆泄露主要源于：训练数据中存在重复或高敏感样本、缺乏去重与脱敏、以及对抗性提示的针对性诱导。它的隐蔽性在于——数据在数据库里看似“已脱敏、已隔离”，却可能通过模型这一“侧信道”被重新提取出来，绕过传统的访问控制。

防护是否到位，最终要靠对抗测试说话：通过构造 PII 提取、上下文复述等攻击样例，量化模型在多轮诱导下的泄露率，才能判断会话隔离与输出脱敏是否真正生效。

说明：本文为行业研究综述整理示例，具体研究内容请以原始发布为准。