「View·想说」系列
继去年发布瑞金医学大模型,今年7月,在刚刚举办的2024年人工智能大会上,瑞金医院发布了瑞金AI医生。瑞金医院上海市数字医学创新中心首席技术官黄飞跃介绍,基于瑞金医院高品质的医学数据,团队构建了面向惠民和助医的医学大模型群。
黄飞跃说:“AI这十年多发展非常快速,但以我这几年在AI、医学行业的观察,当前医学AI还是一个并没有取得特别突破性进展的领域。”
AI大爆发的时代,医学AI如何飞入寻常百姓家?
黄飞跃把医学AI发展遇到的主要问题总结为“量”“准”“全”“安”四点,即传统AI依赖大量精细化标注数据,但实际上医学数据相对稀缺;医学AI的精准度有多需求,所以“准”还有所欠缺;智能化不足,产品层面也有所欠缺;医疗数据安全问题非常重视,也限制了大规模研发。
在黄飞跃看来:这两年起,AI研究的新范式大逻辑是通过预训练、大模型的方法进行初始化,这些研究范式对问题都会有更好的解决方案,这也是比较好的希望。像以GPT为代表的大模型技术,这么多年发展非常快速,其实也已经进入到了医学领域。可以看到医学大模型的主流研究范式,就是通过多模态、多任务、弱监督、预训练的相关方法来实现全场景、零样本的通用。
去年《Nature》上发表的文章,也从医学角度提到了这样的研发思路,也就是说通过医学大模型方式,走向全科医学人工智能。
黄飞跃说:“经过近20多年的积累,瑞金CDR就诊记录已经达到3.2亿,其中记录了详细治疗过程的EMR数据最适合用于医学预训练。黄飞跃介绍,以全院维度统计,具有较高质量的EMR记录总数有超过8000万,每条记录的平均token数在3k左右,所以预训练总量有240B左右。为此基于这一系列的医学数据采用预训练加强的方法研发了瑞金的基座模型。”
通过医学大模型的统一调度,另一方面基于瑞金临床医嘱指令来监督微调,我们构建了医学Agents群组。不同的医学Agents可以通过协同合作来提高应用场景的实际使用效果。这一系列的Agent专家不断协同共演、持续进化。过去十年更多是医疗信息化,相信将来有了这一系列的设计和研发,也可以更好地帮助我们的医疗信息系统从信息化为智能化。“
黄飞跃说:
“瑞金的应用大模型
从症状识别和医学建议两个角度
来切入,
特点是致力于推动
真实临床医学任务的实际应用。””
现在的瑞金大模型可以识别数十万个异常症状,并且给患者推荐最合适的随访科室和精准的医学建议。在瑞金头部十个科室中,大模型也展现出了非常好的泛化性能和卓越的技术能力,相关技术指标都能达到95%以上。