公开榜单 ≠ 安全可信：HealthBench 类基准能刷分，第三方专业题库为何重要

谈到医疗大模型的能力，越来越多的发布会都会搬出一个名字：HealthBench。它由 OpenAI 在 2025 年 5 月推出，邀请来自数十个国家、数百位医生共同构建，收录了数千组高度逼真的多轮医疗对话，配以大量明确的评分要点，覆盖急诊、临床数据解读、全球健康等多种背景。相比过去那种只看选择题正确率的静态题库，HealthBench 更贴近真实交流，因此很快成为行业公认的标尺，各家厂商也纷纷以在它上面的得分作为实力证明。这类公开基准的出现是好事：它让原本各说各话的能力比拼，第一次有了相对统一、可以横向参照的坐标，也推动了"降幻觉、讲循证"这些方向成为全行业的共识。

但公开基准的价值，恰恰也伴随着它的局限。最根本的一点是，题目一旦公开，就可以被针对性地优化。模型团队完全可以围绕榜单的题型、评分要点去强化训练，让分数好看，却未必意味着面对榜单之外的真实问题同样稳健——这就是业内常说的"刷分"。评分规则越具体，越容易被模型摸到规律：奖励多问细节，模型可能堆砌大量无关追问；奖励使用术语，模型可能术语满天飞却忽略了和患者的有效沟通。分数在涨，真实可用性却不一定同步。

此外，任何一个公开基准能覆盖的场景都是有限的。多数医疗评测集偏重通用健康问答，难以触及某一具体科室、具体病种在真实诊疗流程中的细节；它们大多基于规范化、信息相对完整的"标准化病例"，而真实患者的自述往往零散、含糊、答非所问。有研究就发现，同一个模型在阅读标准化病历时表现很好，一旦换成真实患者不完整的口语化描述，准确率会明显下滑。一个在公开榜单上接近满分的模型，未必能在门诊里稳稳接住一位说不清症状的老人。

这就解释了为什么"榜单高分"不能直接等同于"临床安全可信"。公开基准解决的是"可比"的问题，让大家能在同一题面上比高下；而医疗最终要守住的是"可信"的问题，要确认模型在没见过的题、真实的人、复杂的场景下不会犯下危险的错误。这两件事并不是一回事。

要补上"可信"这一环，离不开独立第三方的专业题库与真实数据。与公开基准不同，第三方测评所用的题目不对外披露，由临床专家结合真实诊疗经验出题，并尽可能采用医院真实脱敏数据，覆盖特定科室的高风险场景与"红旗征"识别，再以多轮、动态的方式考核模型从接诊到下结论的全过程。因为题目不公开，模型无从"复习"，分数才更接近真实水平；因为出题与执行都独立于厂商，结论才更有公信力。公开榜单可以告诉你谁在进步，私有专业题库与独立测评，才能告诉你谁真正可以放心用在患者身上。