医疗大模型竞速：各家自报"第一"，第三方测评为何不可缺位

进入 2026 年，医疗大模型的竞争肉眼可见地加速。6 月下旬，百川智能联合清华大学发布新一代医疗增强大模型 Baichuan-M4，宣称在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一，并将裸模型的事实性幻觉率压到 3.3%，对外表述中称其超越了 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro 等一众前沿模型。几乎在同一时间段，OpenAI 与 Anthropic 先后以 ChatGPT Health、Claude for Healthcare 切入医疗，谷歌的医疗系列模型持续迭代，蚂蚁、阿里、腾讯、华为、科大讯飞、商汤等国内厂商也都在医疗赛道上排兵布阵——商汤医疗甚至在年内完成新一轮融资，估值突破十亿美元。可以说，"大模型 + 医疗"正在从概念走向全行业的贴身竞速。

热闹背后，一个容易被忽略的问题浮出水面：当几乎每一家厂商都在宣布自己"第一"，这些"第一"之间其实并不能直接相互比较。有的第一来自某个公开测试集的综合得分，有的来自某个细分子集，有的则来自厂商自建、自评的评测体系。测试用的数据是什么、覆盖了哪些科室和病种、按什么标准打分、是否包含真实临床的复杂场景，各家口径不一。把这些来源不同、规则不同的成绩并排放在一起，结论往往似是而非。更微妙的是，在不少评测里，厂商既是参赛者，又是出题人和裁判，自报成绩天然存在"对着考卷复习"的空间。

这并不是说厂商的进步不真实。低幻觉、强循证、会主动追问的能力，确实在快速提升，方向也值得肯定。问题在于，医疗是一个容错率极低的领域，一次错误判断就可能伤及患者，因此"模型在某个榜单上得了高分"与"这套系统在真实诊疗中足够安全可信"之间，隔着相当长的距离。要跨过这段距离，靠的不是更漂亮的自报数字，而是一套独立于厂商、标准统一、过程可复现、结果可追溯的测评机制。

这正是中立第三方测评的价值所在。由不参与模型研发、不与单一厂商绑定的机构，用一致的方法、对同类任务设定相同的测试集与评分维度，才能让不同厂商的模型被放在同一把尺子下衡量；用医院真实脱敏数据和临床专家命题，才能检验模型在信息不完整、多轮交互的真实场景里是否依然稳健；把测评过程和判分依据完整留痕、可供复核，结论才经得起采购方、监管方乃至同行的反复审视。对正在考虑引入医疗 AI 的医院而言，一份来自独立机构、可横向比较的安全评级，远比厂商宣传册上的"世界第一"更有参考意义。

厂商越卷，越说明这把"度量衡"不可缺位。当市场被各式各样的"第一"填满，真正稀缺的不再是更强的模型，而是一个让所有模型都能被公平、可信地衡量的中立标尺。把"谁更安全、安全到什么程度"从厂商的自我陈述，变成可量化、可比较、可追溯的客观结论，是医疗 AI 走向规模化、可信落地绕不开的一步。