累计访问量:

首页新闻动态 > 行业观察

医疗大模型竞速:各家自报"第一",第三方测评为何不可缺位

来源:行业观察(综合公开信息) | 发布日期:2026-06-26

进入 2026 年,医疗大模型的竞争肉眼可见地加速。6 月下旬,百川智能联合清华大学发布新一代医疗增强大模型 Baichuan-M4,宣称在 HealthBench 及其 Hard、Professional 三个榜单上同时位列世界第一,并将裸模型的事实性幻觉率压到 3.3%,对外表述中称其超越了 GPT-5.5、Claude Opus 4.7、DeepSeek-V4-Pro 等一众前沿模型。几乎在同一时间段,OpenAI 与 Anthropic 先后以 ChatGPT Health、Claude for Healthcare 切入医疗,谷歌的医疗系列模型持续迭代,蚂蚁、阿里、腾讯、华为、科大讯飞、商汤等国内厂商也都在医疗赛道上排兵布阵——商汤医疗甚至在年内完成新一轮融资,估值突破十亿美元。可以说,"大模型 + 医疗"正在从概念走向全行业的贴身竞速。

热闹背后,一个容易被忽略的问题浮出水面:当几乎每一家厂商都在宣布自己"第一",这些"第一"之间其实并不能直接相互比较。有的第一来自某个公开测试集的综合得分,有的来自某个细分子集,有的则来自厂商自建、自评的评测体系。测试用的数据是什么、覆盖了哪些科室和病种、按什么标准打分、是否包含真实临床的复杂场景,各家口径不一。把这些来源不同、规则不同的成绩并排放在一起,结论往往似是而非。更微妙的是,在不少评测里,厂商既是参赛者,又是出题人和裁判,自报成绩天然存在"对着考卷复习"的空间。

这并不是说厂商的进步不真实。低幻觉、强循证、会主动追问的能力,确实在快速提升,方向也值得肯定。问题在于,医疗是一个容错率极低的领域,一次错误判断就可能伤及患者,因此"模型在某个榜单上得了高分"与"这套系统在真实诊疗中足够安全可信"之间,隔着相当长的距离。要跨过这段距离,靠的不是更漂亮的自报数字,而是一套独立于厂商、标准统一、过程可复现、结果可追溯的测评机制。

这正是中立第三方测评的价值所在。由不参与模型研发、不与单一厂商绑定的机构,用一致的方法、对同类任务设定相同的测试集与评分维度,才能让不同厂商的模型被放在同一把尺子下衡量;用医院真实脱敏数据和临床专家命题,才能检验模型在信息不完整、多轮交互的真实场景里是否依然稳健;把测评过程和判分依据完整留痕、可供复核,结论才经得起采购方、监管方乃至同行的反复审视。对正在考虑引入医疗 AI 的医院而言,一份来自独立机构、可横向比较的安全评级,远比厂商宣传册上的"世界第一"更有参考意义。

厂商越卷,越说明这把"度量衡"不可缺位。当市场被各式各样的"第一"填满,真正稀缺的不再是更强的模型,而是一个让所有模型都能被公平、可信地衡量的中立标尺。把"谁更安全、安全到什么程度"从厂商的自我陈述,变成可量化、可比较、可追溯的客观结论,是医疗 AI 走向规模化、可信落地绕不开的一步。

< 返回新闻动态