人工智能给信息科工程师发展的启发

发布时间:2023-03-15
浏览次数:

前言:关于进化


  去年的CHIMA大会上,王才有主任有句话让人印象深刻:现在进入了一个没有教科书的时代,自我进化是唯一的选择。

  职场路上,每个人都想持续进化,提升自我,但是没有教科书,就得有个参照物,最好能看得懂它背后的逻辑,才能学习借鉴。

  从去年年底至今,以ChatGPT为代表的AIGC(AI Generated Content,人工智能生成内容)技术,一直是IT圈最大的热点,也展现了AI可怕的进化能力。

  AI在进化过程中,一直将人作为重要参考对象和标的,比如模仿人脑的神经网络去思考,人脑的神经网络也是人工神经网络(ANN)的技术原型。

  尽管人脑与电脑之间并没有简单的对应关系,但是可以借鉴一些AI领域的思想和经验。比如,广为人知的AI三要素(算力、算法、数据),同样适用于人:算力是人思考的速度,算法是人思考的角度,数据是一个人过往所有经历的精华集锦。

  在这样的前置条件下,产生一个有趣的问题:可否像训练AI一样去训练自己,保持进化,持续进步。

  以下谈谈我自己的理解,不到之处,请批评指正。


  1算力:七分天注定,三分靠“苦练”

  来自媒体的数据显示,ChatGPT的总算力消耗约为3640PF-days(即假如每秒计算一千万亿次,需要计算3640天),需要7~8个投资规模30亿、算力500P的数据中心才能支撑运行。为此,微软的Azure云服务为ChatGPT构建了超过1万枚英伟达A100 GPU芯片的AI计算集群。

  这样的算力规模让人咂舌,人不可能像电脑一样通过频繁地升级硬件来提升自身的通用算力,况且,人的通用算力,先天身体素质占了很大因素。但是,具体领域的算力,还是可以通过一定的方法得到提升。

  (1)熟能生巧,勤能补拙。

  通过高质量的训练,提高单位时间内的运算能力,持续释放算力潜力。小时候练书法,临摹字帖是必由之路。先练笔画,再练常用字,达到一定熟练程度之后,面对从未见过的字,也能把它写得很好。后来学英语、下围棋也是如此,反复背诵经典句型、基本定式等,熟练掌握后,遇到具体场景,很快地迎刃而解。从这个角度看,个人的算力,更像是一种由已知推导未知的推演能力,高质量的训练,会让这种能力得到有效提升。

  (2)保持专注,合理分配。

  通过合理分配,尽可能把算力集中在更有价值的任务上。同时,摒弃无意义的思考,清空脑中的杂念,减少对算力的无端消耗,通过培养良好的生活和运动习惯,让自己的算力尽快恢复,尽可能长时间地处于最优算力区间。

  2算法:触类旁通,持续调优

  计算机和人工智能赋予了“算法”特定含义,但从广义上讲,“算法”无处不在。面对问题时,“按部就班”是一种算法,“未雨绸缪”也是一种算法;待人接物中,“心直口快”是一种算法,“深思熟虑”也是一种算法。

  算法中蕴藏的很多智慧和经验是相通的,作为IT行业工程师,对此应该有更敏锐的认识。

  比如,决策树算法是机器学习算法中的经典算法之一,主要起到分类器的作用,可以让很多复杂问题简单化。在平时工作中,面对一个复杂问题或大项任务,有些人第一反应是畏难情绪和无从下手的困惑感,而有些人则会删繁就简,很快抓住问题的要害,在脑海中迅速形成决策树,更有厉害的人,还会借鉴决策树算法中的剪枝操作,对脑海中初次形成的决策树进行优化修正。

  算法的优劣直接导致了人工智能的水平高低,放在人身上同样适用。

  再比如,神经网络训练结果不佳时,一个常见策略是回头调参,反复尝试。很多深度学习算法工程师经常被戏称为调参工程师,就是因为深度学习大部分时间都在调整参数,反复地trial-and-error,没有捷径可走。当然,调参也是个技术活,盲目调参可能会适得其反。

  从个人角度看,调参即复盘检讨:当你觉得一件事没有达到预期时,趁着余温未凉,记忆尚存,赶紧回头复盘,围绕关键环节、关键人进行反思调整,找出可能的原因,形成新的策略,应用于下一次实践,长此以往,才能逐渐接近自己理想的结果。工作中养成常复盘检讨、勤更新策略的习惯,在应对不断变化的外部环境时,方能显得更为从容。《论语·学而》中提到的“吾日三省吾身”,也体现了古人对于调参的领悟。

  3数据:食材很重要,既要吃饱还要吃好

  众所周知,数据是AI算法的“饲料”。上文在讨论算力时,提到了经典教材、临摹字帖等教具,站在AI的角度,这些教具都是经过历代专业用户标注的优质数据。这些优质数据,让初学者一上来就站在了前人的肩膀上,起步即加速。相反,一套质量堪忧的数据,喂得越多,对用户误导越大,起步就掉坑。俗话说,跟臭棋篓子下棋,越下越臭,说的就是这个道理。

  当下最不缺的就是数据,获取数据的门槛在不断降低。作为一个IT工作者,大家手里可能都有一个甚至几个网盘,里面塞满了各种教程、指南。越是这样,对于训练数据的选择,可能要更加慎重,尽可能找一本经典教材或是别人标注过的优质数据,深学细悟,避免在低质量的数据里浪费时间和算力。

  高质量的训练数据,除了他山之石,也可以从自身提炼。开篇说过,数据是一个人过往所有经历的精华集锦。为什么要特意加上“精华集锦”呢?因为一个人过往的所有经历是流水账,流水账这种原始数据,是不能拿来训练的。必须要经过清理、结构化和标注等预处理,才能作为训练数据。

  再比如,在深度学习中,为了解决数据单一问题,通常会采用数据增广方法,让数据极尽可能的多样化,使得训练的模型具有更强的泛化能力。例如在传统图像算法中,常用缩放、平移、旋转、仿射等几何变换来进行数据增广。

  数据增广,就是多角度认识事物,避免思考问题角度单一化。我刚到基层医院信息科工作时,更多地是从事数据库运维工作,用得最多的教材便是“军卫一号数据结构手册”。基层人少事多,慢慢地,人不够用的时候,我也被机关拉去参加行政查房、院周会等医疗管理活动。同样的医疗概念,站在之前的IT视角,它就是军卫手册上的表和字段。现在,站在医疗视角,温故知新,之前抽象的、纯IT的内容,便与医疗业务中具体的工作流程、规章制度产生了映射关系,也让我对医疗的认识更加全面具体。

  4总结

  俗话说,内行看门道。作为IT圈的一份子,医信从业者对人工智能应该有更深刻的认识,更敏锐的思考:不仅局限于关注面上的热点,更应从自己的专业视角出发,去探究AI发展背后的逻辑和规律,为我所用。

  文章有点长,其中有很多跨行业的思考和认识,认识不一定到位,道理也不一定对,感谢读者的时间,不足之处还请批评指正。

  作者简介

  李楠,CHIMA青年委员。现从事医院管理和信息化工作。作者观点仅代表个人,纯属技术交流,与供职单位无关。