国内有研究团队近日发布面向医疗场景的大模型安全评测基准,围绕医疗问答的事实准确性、安全拒答、隐私保护与对抗鲁棒性等维度,构建了系统化的评测任务集,为医疗大模型的安全评估提供了重要的学术参考。
该基准包含数千条覆盖常见病、急危重症、用药安全等场景的测试样本,并特别引入对抗性与诱导性问题,用于检验模型在复杂、非常规情境下是否会产生误导性或不安全的回答。相比只看“答得对不对”,基准更强调“在被带偏、被诱导时是否仍然稳得住”。
公开学术基准的价值在于横向可比与可复现,但也存在被针对性“刷分”的风险——一旦题库公开,模型可能记住答案而非真正具备安全能力。这正是第三方测评需要保留私有金标准题库的原因:公开基准用于学界共识,私有题库用于守住测评公信力,两者互补。
研究团队表示,安全评测基准的开放有助于推动医疗大模型在统一标准下横向比较,促进高校、医疗机构与第三方测评平台的协同。平台将持续跟踪并借鉴前沿学术成果,完善医疗场景测评方法。
说明:本文为学术动态转载整理示例,具体内容请以原始发布为准。