薛万国:大模型—我的思与惑

发布时间:2025-07-03
浏览次数:

  大模型(LLM)技术震撼全球,应用大模型的热潮也席卷医疗行业。我虽然已不在医院信息化的一线,但IT工程师的本性难改,面对这样的突破性技术,自然兴趣有加。孔子说,“学而不思则罔”。遵循这一教诲,在学习大模型技术、追踪大模型应用的同时,我也在反复琢磨大模型与既往技术的不同,思考它擅长的应用场景,期望能看透大模型给医院信息化带来的影响。经过一段时间的“学而思”,我发现也许是技术改变过大,也许是应用时间尚短,总感觉有些问题明白了,但还有一些问题仍是雾里看花,特别是在大模型的应用上仍存疑惑。下面是几点模糊认识,写出来和大家一起探讨。

  一是大模型在临床应用中的“悖论”。我们对医学人工智能的最高期待就是用人工智能来帮助医生进行诊断和制定治疗方案。我看到了不少医院试用大模型的报道,其中最引人注目的就是医生的试用反馈,“某某病例使用大模型的输出结果和我想的几乎一样”。这种体验反映了人工智能水平的进步,也是大模型的惊艳之处。但众所周知,大模型推理存在幻觉。据报道,日本一项系统性回顾和荟萃分析显示,生成式AI模型的平均诊断准确率为52.1%(与非专家医生相当)。我们期待人工智能能够辅助医生看病,特别是对基层医生提供指导。可是,如果大模型说的和医生想的都一样,那它的指导价值在哪里?可如果大模型说的和医生想的不一样,那医生又该怎么办,信还是不信?这岂不是构成了大模型应用在临床诊疗场景下的一个悖论?

  二是大模型通用性和专用性的矛盾。大模型的能力来自于覆盖各领域的海量语料的预训练,通用性是它区别于既往人工智能技术的显著特征。医疗领域拥抱大模型的热情很大程度来自于看中了大模型的通用化能力。然而,经过多来源混杂语料训练的自然语言大模型,能够满足医学高度专业化的场景需求吗?一段时间以来,我们看到,医学垂域模型不断涌现,同时,基于通用基座大模型面向医学特定场景的模型微调也在兴起,“糖尿病大模型”“心肌病大模型”“脑血管病大模型”等等层出不穷。专科专病大模型弥补了通用大模型医学专业性的不足,可以提供更好的能力表现,但由此带来的问题是,应用场景如此狭窄的专用模型又对冲了我们最看重的大模型的通用性。前些年,医学人工智能经历了专科、专病、单部位模型的专用阶段,大量专有的、碎片化的智能模型很难整合到医学流程中,给人工智能的应用落地造成了障碍。我困惑的是,如此发展下去,原本我们期待的通用医学智能会不会再度陷入之前的碎片化智能?

  三是自然语言与机器语言的纠结。我是计算机专业出身,从接触计算机的第一天起,就被训练要用严谨的计算机语言进行编程和与计算机交互。无论是汇编语言、高级语言、操作系统命令都是如此。关系数据库和SQL语言的发明是计算机发展中的一大进步,开发者在操作数据库时,只需要描述做什么而不用描述怎么做(查询过程由数据库系统优化实现)。但即便如此,SQL语句中的查询条件表达依然有严格的语法和精确的语义定义,依然属于计算机语言。而基于大模型的应用系统开发则完全颠覆了这一传统,开发者需要通过自然语言提示词来表达期望的行为,去唤起大模型的功能。当我看到大模型应用程序代码中,在计算机语言中夹杂着大段的自然语言“指令”时,我的内心在感慨,时代是否真的变了。在大模型时代,做程序员不仅要会“编程”,还要学会“说话”,而且要“好好说话”,因为大模型的表现与自然语言描述的质量紧密相关。感慨的同时,对这样的开发模式也心存忐忑。智能化应用,查询条件和处理要求“这么说”或“那么说”,程序执行结果确定吗,我想要查的病例数据能查全查准吗?

  四是人工智能技术的选择。大模型的语言能力很强,应用场景很多,但这也是以消耗计算资源和增加响应延迟为代价的。如果把传统人工智能技术中规则库比作是轻武器,把知识图谱比作是中型武器,大模型就属于重武器。大模型的出现既对传统医学人工智能应用提供了替代方法,也为医院智能化应用场景创新提供了动力。但不同的技术有不同的用途,大炮不适于打苍蝇。我看到很多厂商在对智能化应用进行重构,也在利用新技术对传统应用赋能。那么,在医院智能化应用的场景中,哪些适合于大模型(包括参数的规模),哪些应该用其它人工智能技术实现呢?

  大模型的推出令人振奋,以上几点思考和困惑,期待共同探讨,也期待看到更多的实践成果以答疑解惑!