三万乡镇医院的数据,为什么人工智能用不了
三万乡镇医院的数据,为什么人工智能用不了 | 海斌访谈
2026年05月01日 14:47
“从基层医疗来说,AI想下去是很容易的,但从那里产生AI还是挺难的。”近日,一脉阳光董事长陈朝阳对第一财经记者表示。
中国有超过三万家乡镇卫生院,每年诊疗人次超过10亿,在治病救人方面发挥重要作用。不过,在乡镇医疗机构,CT、超声等设备所产生的数据比较粗糙。高质量数据是高质量大模型的前提条件,而乡镇医疗机构的影像数据暂时还不具备人工智能价值,这也是一种浪费。
AI 能下,不能上
“从乡镇医疗机构采集有意义的影像,这一点比较难。”陈朝阳表示。
一脉阳光是一家医疗服务企业,业务聚焦于医学影像数据,也就是CT、磁共振、超声心电等。一脉阳光在全国20省份建有117个影像服务中心,合作机构超1100家。
一脉阳光不但与省市级别医院合作,也会触及乡镇医疗机构。
“中国大概有10万家医院,3万个在农村叫乡镇卫生院,3万个在社区,还有大概3万在城市里面。我们认为要把未来医疗干好,要把这10万个医疗机构变成数字化的医院。”陈朝阳说。
国家卫生健康委员会发布的《2024年我国卫生健康事业发展统计公报》显示,中国基层医疗卫生机构中,乡镇卫生院33334个。基层医疗机构,承担着繁重的任务。2024年,乡镇卫生院诊疗人次13.8亿,比上年增加0.7亿人次。
影像数据是医疗数据的核心构成。考虑到中国病患人数众多,各级医疗机构每年都会产生海量影像数据。从应用场景来看,中国人工智能企业,本应可以得到充足且优质的医疗数据。但真实的情况是,大量乡镇医疗机构的数据难以被人工智能企业所用。
“相对三甲医院采集的影像数据,这些乡镇医疗机构采集到的数据差异很大。就像我们的CT,放在北京采到的数据跟搬到一个乡镇采集到的数据,那是两件事儿。”陈朝阳表示,乡镇医疗机构的影像数据在训练医疗大模型的时候,“很多就不能用”。
数据是人工智能的燃料。
中国是全球医疗AI企业的必争之地。飞利浦等跨国企业,联影等中国企业已经将AI视为塑造医疗未来的关键驱动力。飞利浦在不久前的中国国际医疗器械博览会上,展出了50余款创新产品,近半数产品已与人工智能紧密相关。其中,新一代的能量CT扫描将带来数据量的爆炸式增长。从谷歌到阿里,从飞利浦到智元机器人,不管它们开发的是大语言模型、面向真实世界的物理AI,还是CT硬件产品,每一家想要在人工智能时代有所作为的企业都将数据置于核心位置。
觅蜂科技董事长、CEO姚卯青此前接受第一财经采访时说,现在的大模型都是数据驱动的,什么样的数据就产生什么样的模型。
“Garbage In、Garbage Out,如果你是垃圾数据进,就垃圾模型出。”姚卯青说。低质量数据还会造成深层次问题,如果有一个好的算法,训练后却没有得到好的效果,大模型企业将难以分辨,到底是数据不好,还是模型出了问题,甚至可能因此而否定优秀的算法。
现在国内人工智能技术与基层医疗机构之间,是一种单向流动。人工智能技术可以在云端或者内嵌设备的方式,被基层医疗所采用。但是基层医疗难以向人工智能反向输入足够可用的数据。
这很大程度上源于医疗资源的不均质分配。
据陈朝阳分析,欧洲和美国的医疗体系均质化比较好,农村地区和城市的医疗水平差异化不是特别大。“所以它的数据转化到应用端的成本会比我们低,因为采集端的标准化程度比较高。而对于我们来讲,这是一个痛点。”
数据何以浪费了
三甲医院和乡镇卫生院,影像数据质量完全不同,背后是人才体系的巨大差异。
中国的现代医疗体系,建设期并没有多少年。但是中国人口众多,地域广大,因此医护人员的相对比例还不够高。
“我们这个体系经过几十年发展,里面有几个学科是很多高质量的医学生不愿意选的,包括儿科和影像科。医学生不愿意选这两个科,主要原因还是跟收入有关。”陈朝阳表示,他们如果能在本科以上院校读完影像专业,更倾向于走进城市医院,而非落地基层医疗机构。
据陈朝阳观察,当县一级医院临床大夫已经达到博士生水平的时候,乡镇医疗机构的放射科大夫很多还是大专毕业生水平。
在医院放射科,完成整套检查流程需要两位人员:设备操作员和影像医生。
跟拿着傻瓜相机拍照不一样,医疗设备操作员需要知道临床医生的大致诊断方向,也要明白如何使用设备的复杂功能来达成影像效果。
“例如MRI(磁共振成像)查看完之后,我怀疑患者的灰质有问题或者血管有问题,需要调一个TWI(磁共振成像中基于组织横向弛豫时间差异生成图像的技术)来检查。如果他不会操作,信息量就不够,临床医生就无法做好诊断。”陈朝阳说:“合格的影像医生就更缺少了。一个胸部CT下来300张片子,一会看骨头,一会看肺泡,没有经过长时间训练,他真是没有办法。”
在基层医疗机构数据质量不佳的情况下,一些医疗AI企业就要亲自下场采集数据。
随着5G等通信技术进展,这些机构可以远距离控制异地设备,完成数据的标准化采集。这样收集到的乡镇病患数据和一线城市的数据趋于一致。
“我们研发最花钱的就是人工智能,其中算力和数据的构建是大头。”深至科技首席执行官朱瑞星不久前对记者表示。
朱瑞星认为,现在市面上已经有不少医疗大模型,而且发表在高质量医学杂志上的公共数据已经被充分利用,AI医疗的独特优势将是独有数据。
“独有数据恰恰是能够构建长期壁垒的东西,会让你的模型精度不断变高。没有活的数据,其实就没有壁垒。”朱瑞星说。
医疗数据的问题,并不只存在于基层医疗机构。
关于AI医疗的痛点,森亿智能方面认为,核心难点是数据治理与集成的复杂性。医院通常运行众多独立系统,其架构及数据标准各异,阻碍了跨系统互操作性。医疗术语缺乏标准化,且病历等非结构化数据普遍存在,进一步增加了数据清洗与分析的复杂度。数据质量不佳(包括错误及字段缺失)削弱了人工智能模型的可靠性,并增加了开发成本。
“医疗机构极其分散,每个都是一个孤岛。我们的治疗行为分散到每个孤岛里面去了。”陈朝阳说:“我是自己医疗数据的拥有者,连体检数据都很难组织起来,因为有的时候在北京体检,有的时候在上海体检。”
数据质量,决定了人工智能的上限。中国人口众多,医疗数据如果能被充分利用起来,那会令AI如虎添翼;如果因为采集不标准,医疗机构孤岛化,这些数据不能被充分利用,则意味着巨大的浪费。