累计访问量:

首页新闻动态 > 学术前沿

大模型医疗问答安全对齐方法研究

来源:学术前沿(转载整理) | 发布日期:2026-04-25

北京大学相关研究团队提出一种面向医疗问答的大模型安全对齐方法,通过在训练阶段引入安全偏好数据与拒答机制,在保持回答有用性的同时,显著提升模型在医疗敏感问题上的安全表现,相关成果引发学界关注。

  • 构建医疗安全偏好数据集,引导模型在高风险问题上谨慎作答或主动提示就医,而非给出确定性结论;
  • 引入事实一致性约束,降低“幻觉”导致的错误医学信息与虚构来源;
  • 在对齐过程中兼顾有用性与安全性,避免“过度拒答”——把正常医学科普也一并拒绝,反而损害可用性。

医疗对齐的真正难点不在“让模型多拒答”,而在拒答得是否恰当。过度护栏会把患者最需要的就医引导也挡在门外;护栏不足又会放任高危幻觉。研究强调用可量化的方式衡量这一平衡,而非凭主观感受判断模型“够不够安全”。

该研究为医疗大模型的安全评估提供了新思路:安全不是单一指标,而是“拒答合理性 × 回答可靠性”的联合表现。平台在测评方法中亦关注这一平衡,通过幻觉控制、诊疗边界、安全拒答等维度的量化打分,避免“一刀切”地把高拒答率误判为高安全。

说明:本文为学术动态转载整理示例,具体内容请以原始发布为准。

相关政策与延伸阅读

< 返回新闻动态