多项研究评估了大模型在特定提示下复述、泄露训练数据的风险。模型在训练中可能“记住”部分原始样本,并在被诱导时将其逐字或近似地输出——这一现象在涉及个人信息与病历数据的医疗场景中尤为敏感。
记忆泄露主要源于:训练数据中存在重复或高敏感样本、缺乏去重与脱敏、以及对抗性提示的针对性诱导。它的隐蔽性在于——数据在数据库里看似“已脱敏、已隔离”,却可能通过模型这一“侧信道”被重新提取出来,绕过传统的访问控制。
防护是否到位,最终要靠对抗测试说话:通过构造 PII 提取、上下文复述等攻击样例,量化模型在多轮诱导下的泄露率,才能判断会话隔离与输出脱敏是否真正生效。
说明:本文为行业研究综述整理示例,具体研究内容请以原始发布为准。