北京大学相关研究团队提出一种面向医疗问答的大模型安全对齐方法,通过在训练阶段引入安全偏好数据与拒答机制,在保持回答有用性的同时,显著提升模型在医疗敏感问题上的安全表现,相关成果引发学界关注。
医疗对齐的真正难点不在“让模型多拒答”,而在拒答得是否恰当。过度护栏会把患者最需要的就医引导也挡在门外;护栏不足又会放任高危幻觉。研究强调用可量化的方式衡量这一平衡,而非凭主观感受判断模型“够不够安全”。
该研究为医疗大模型的安全评估提供了新思路:安全不是单一指标,而是“拒答合理性 × 回答可靠性”的联合表现。平台在测评方法中亦关注这一平衡,通过幻觉控制、诊疗边界、安全拒答等维度的量化打分,避免“一刀切”地把高拒答率误判为高安全。
说明:本文为学术动态转载整理示例,具体内容请以原始发布为准。