福建省人民医院:基于医院安全运营中心的编排自动化与响应的建设与探索

发布时间:2024-08-09
浏览次数:

  2024年医院新兴技术创新应用典型案例征集活动经行业专家背靠背盲审以及终审,共选出20篇典型案例,将陆续刊登出来,以飨读者。

1项目简介

  (1)基本情况

  福建省人民医院(暨福建中医药大学附属人民医院)坐落于历史文化名城、海峡西岸经济区中心城市福州,毗邻上下杭历史文化街区,创办于1954年12月,是福建省人民政府创办的首家公立医院,也是福建省首家三甲中医院。

  福建省人民医院从2018年开始进行安全运营中心的建设,现已基本建成可持续的安全运营体系,实现对全网设备流量、日志的接入,一体化的安全运营效果初现。随着院内信息化的不断深入,安全运营中分析出的告警量也在不断增加,而这些告警受限于人力资源及专业能力,需要大量的安全专家来分析,也使得在响应安全事件的时间耗费较大,同时院内安全管理人员每日疲于执行重复性任务,整体效益不高。

  由此,福建省人民医院于2023年提出安全运营中心的编排自动化与响应的方案,可以有效的摆脱这一困局,充分协调不同的安全工具和技术,打破先前半自动化的闭环流程,自动分析事件,确定是否采取措施,并执行相应的操作,实现自动化高效的事件响应和管理,降低大量的人力资源和专业技能的依赖。

  (2)存在的问题

  通过梳理院内的日常安全运营流程,发现以下几个问题:

  第一,告警量过多、误报严重、告警重复。基于历年的安全建设,院内的各种设备:如终端、主机、网络设备、安全设备等各种数据接入,必然会因路径节点位置不同、检测机制各异,从而导致一次攻击会被各节点捕获为不同表现的同类型告警。

  第二,安全设备孤岛化,难以形成合力。目前院内每天新增的告警数量无法和现有的安全监测处置人员所能处置的数量成正比,每当一条新的网络安全告警产生,就需要对告警的各个属性进行全面分析,如攻击IP的信誉度、反向连接域名的组织归属、目标IP的脆弱性及当前的安全状况等,需要借助多个安全能力协同研判,整体流程人工成本投入较大。

  第三,人工操作耗时过长,无法应对自动化的快速攻击。异构设备的操作界面不一,安全防护逻辑各异,人工操作时多设备切换,难以降低MTTR(平均响应时间)。

  第四,传统的人工方式,难以实现全天候的安全运营。低门槛、重复性的人工操作,极易带来精神疲劳,容易造成告警的疏漏。员工没有成就感,且难以保障7*24小时的值守。

2建设与开发

  (1)自动化安全运营中心建设

  第一,接入多数据源告警

  通过采集多种来源(如安全运营中心的告警信息;其它第三方系统/设备通过syslog发出的告警信息;Kafka消息系统接收第三方的告警信息;人工录入或者导入告警信息)的告警信息,并对这些告警进行智能化分诊、调查与响应,帮助安全管理人员识别需要处理的告警,排定处置优先级,并自动响应。接入多数据源详见图1。

1.jpg

图1 接入多数据源

  第二,告警关联分析

  针对原始告警的过滤、范式化、归并、索引等功能,以告警范式化的形式或者应用的形式对告警信息进行增强。对不同来源的海量告警信息进行交叉比对,协助安全管理人员自动从海量告警信息中识别真正需要关注的告警信息。

  第三,对接现有网络安全设备

  采用开放的可编程架构设计,内置工作流引擎和应用开发包,通过API的方式,将异构设备的接口,封装成APP应用包,导入到系统即可无缝融入到现有的安全运营场景的编排中。开放化设备集成详见图2。

2.jpg

图2 开放化设备集成

  (2)自动化安全运营中心的开发

  第一,告警同步至编排自动化与响应系统

  编排自动化与响应系统平台接收到来自安全运营中心发送的告警信息及其他详细信息。威胁检测结果同步发送至编排自动化与响应系统详见图3。

3.jpg

图3 威胁检测结果同步发送至编排自动化与响应系统

  第二,选定场景进行任务编排

  通过对院内常见的核心威胁进行梳理,与安全厂商的专家共同敲定本次以Scarab勒索软件活动事件IOC自动封禁为例进行任务的编排。选定任务场景详见图4。

4.jpg

图4 选定任务场景

  第三,研判与决策设计

  针对上方场景,在不影响院内正常业务的同时,对威胁进行应急预案的编写,以下方流程图为例,通过创建白名单的机制对院内的所有业务IP进行梳理编辑生成白名单库。威胁分解详见图5。

5.jpg

图5 威胁分解

  第四,研判与决策链落地

  针对上方威胁分解流程图进行编排自动化与响应系统的任务编排,通过接入多数据源以及安全运营中心分析的威胁告警信息、白名单IP库、调用第三方防火墙的API接口进行任务编排,达到自动化处置此类威胁的效果。威胁分解流程图转化详见图6。

6.jpg

图6 威胁分解流程图转化

  第五,检测到告警

  安全运营中心检测到Scarab勒索软件活动事件,以及对应的IP和IOC域名,受害者等信息。安全运营中心检测威胁详见图7。

7.jpg

图7 安全运营中心检测威胁

  第六,触发已编排好的剧本

  编排自动化与响应系统自动启动预置的告警处置流程,对IOC字段进行解析,联动第三方防火墙进行IOC的封禁,同时对整个流程的运行状态进行记录。编排自动化与响应系统启动预案编排流程详见图8。

8.jpg

图8 编排自动化与响应系统启动预案编排流程

  第七,威胁处置闭环

  进入安全运营中心查看上述威胁的处置状态,可以看到处置记录中将处置结果的待处置修改为已处置。安全运营中心威胁闭环详见图9。

9.jpg

图9 安全运营中心威胁闭环

  第八,第三方防火墙验证

  为保证威胁处置的有效性,进入第三方防火墙的永久封禁白名单中可以看到,对于之前检测到的IOC已实现完整封禁,至此,整体威胁自动化处置顺利闭环。第三方防火墙验证详见图10。

10.jpg

图10 第三方防火墙验证

  基于Scarab勒索软件活动事件IOC自动封禁场景成功落地,为后续院内继续探索打下了坚实的基础。

  第九,后续我们计划在运维层面也通过编排自动化与响应的工具,替代运维人员频繁进行设备巡检等基础的事务性运维工作,把更多的精力投入到高阶的威胁检测,响应与处置,后续探索设计场景如下:

  ● 院内设备自动巡检:通过系统可用性检查(应用层、业务层),验证相应的设备能否正常登录;CPU、内存、磁盘是否正常;设备本身是否存在异常告警等,并对接工单系统生成代办事项。

  ● 临时策略管控:通过网络访问控制策略临时白名单,开通临时访问策略白名单,到期自动关闭访问策略,避免因临时的突发事件导致的应急处理后,端口没有及时回收,成为僵尸端口,为日后攻击者的快速渗透提供条件。

  ● 弱口令修复事件升级:通过院内现有的安全运营平台监测到的包括,不限于终端、服务器、业务系统等弱口令资产信息,并定位到资产负责人,联动相关的院内即时通讯软件进行整改通知的发送,完成弱口令的修复,并进行验收,降低因弱口令导致的业务连续性中断等事件。

3 关键技术或产品描述

  (1)技术架构设计

  整个平台架构分为四层(如图11所示),自底向上依次是:采集层、告警存储层、支撑层和业务层。

11.jpg

图11 平台架构图

  采集层能够接收其他第三方系统/设备通过syslog或Kafka接收第三方的告警信息。也允许通过该API接口接受第三方的告警信息;支持人工录入告警信息。

  告警存储层基于对告警的过滤、合并、降噪,实现精准告警采集,并基于预处理实现标准化处置,通过统计汇总形成告警库和总览展示,基于响应规则实现自动化响应。

  支撑层是基于多引擎和开发框架,支撑对上层业务应用的扩展支持,并实现核心组件的加载和驱动。

  业务层是包含作战室、案例、编排与自动化三大部分,以核心剧本编排、脚本编写、应用集成为依托,构建业务流程剧本,展开典型事件跟踪管理形成案例维护,对处置流程和过程做有效记录。基于作战室的实时沟通加强协作,并同步到案例数据中。

  (2)功能架构设计

  编排自动化与响应系统的功能架构(如图12所示):

12.jpg

图12 编排自动化与响应系统的功能架构

  系统功能总体上分为6个部分,分别是:安全编排与自动化、告警响应管理、案例管理、作战室、运营绩效管理、工单任务管理。

  ● 安全编排与自动化:系统的核心功能,实现了安全能力的集成、安全流程的编排与自动化执行,包括剧本管理、编排器和应用管理功能。其中,工作流引擎驱动的编排器是安全编排与自动化的中枢,实现了基于剧本的安全运营流程编排调度和活动执行;自动化应用执行引擎实现了已集成安全能力的自动化调用。

  ● 告警响应管理:帮助用户进一步对各类告警信息进行智能化分析和编排化调查,核实告警、降低误报,提升后续安全响应的准确度与有效性,包括告警分诊、告警调查、告警响应和告警库四个功能。其中最核心的是告警分诊和告警调查,这也是区别于传统SIEM/SOC平台的告警管理功能的关键之处。

  ● 案例管理:帮助用户对一组相关的告警进行流程化、持续化、协同化的调查分析与响应处置,包括案例概览、案例处置、案例协同、案例报告、痕迹管理等功能。

  ● 作战室:提供一套面向安全运营人员的协同化响应处置工具,整合应用、剧本和应对措施,针对重要案例,以聊天运营的方式进行实时沟通与响应处置,促进团队协作、贴近实战,并能生成作战报告,便于复盘和总结提升。

  ● 运营绩效管理:以仪表板和大屏的形式展示一段时间内系统处理的案例情况、任务执行情况、剧本情况、应用和动作情况等信息,帮助运营管理者掌握系统运行的整体情况,了解告警和案例的响应处置效率,促进安全运营持续改进。

  ● 工单任务管理:涵盖用于突发性告警响应的一次性工单和日常反复自动执行的周期性工单,包括工单处置、工单流转等功能。汇总剧本执行过程中创建和指派的人工任务和审批任务。完成任务处置和审批后,将处置状态自动更新到剧本处理流程,并继续后续流程的执行。实现任务来源追溯和处置记录。

  (3)应用场景设计

  图13展示了系统的用户视图:

13.jpg

图13 系统用户视图

  从用户视角来看,系统包括了5种使用者,分别是:流程设计人员、应用开发人员、运维人员、协作团队、安全领导。

  ● 流程设计人员:负责将传统的安全运营流程和规程,转换为编排自动化与响应系统平台。他们对医院的安全流程十分了解,并清楚一个落地化的安全流程需要集成/调用那些现有的安全能力。

  ● 应用开发人员:负责将医院现有的安全设施和系统通过应用程序接口(API)进行应用化封装,转换成一系列安全能力(服务化功能)。他们对安全基础设施和各类流程工具的API调用十分熟悉,具备基于解释性编程语言的使用与开发能力。

  ● 运维人员:负责医院日常安全运营的运维人员,包括一线运维、二线分析师。他们使用编排自动化与响应系统提升安全运营工作的自动化水平和运营效能,节约运维时间与人员成本。

  ● 协作团队:指与医院安全运营团队在安全运营过程中的利益共担方,譬如其他专门的应急响应团队、威胁猎捕团队。

  ● 安全领导:是指医院负责安全运营的领导,用编排自动化与响应系统来对安全运营的过程和效果进行度量,对自动化与编排的效果进行度量,了解安全运营的数字化程度,并对安全运营过程做出优化与改进决策。

4 应用效果

  (1)自编排自动化与响应系统上线启用以来,结合安全运营中心采集到的日志61亿余次,产生告警27871条威胁告警,涉及12种攻击4754个攻击源,涉及81个受影响资产,自动化处置200余次。通过自动化处置,将威胁更快地处置,平均处置时间控制在10秒以内,信息安全管理工作由手动变为自动。

  (2)梳理核心场景5个、覆盖379项服务器关键资产,摸清核心业务风险,针对核心场景进行预案编写,形成自动化执行脚本,威胁处置后,可追溯并形成属于本院的攻防知识体系,健全威胁处置制度,提高安全管理人员专业水平,7*24小时保障业务连续性和数据安全。

  (3)可持续的编排自动化与响应体系,在缓解院内安全管理人员的压力同时,还能更加及时地响应威胁,提升院内安全团队整体能力。在第四届全国医院高质量创新发展论坛的安全运营体系能力展示中赢得广泛的认可与称赞,为后续院内网络信息化的建设奠定了良好的基础。

5 总结

  通过本次网络安全编排自动化与响应系统的建设与开发,我们深刻认识到医疗信息化场景中网络安全的重要性。该系统不仅提升了医疗机构的安全防护能力,也促进了医疗信息化建设的进一步发展。

  首先,在医疗信息化场景中,网络安全是保障医疗机构正常运行和业务连续性的关键。通过自动化编排与响应系统的应用,医疗机构能够实现对安全事件的快速发现、分析和处置,有效降低了安全风险。

  其次,该系统的成功建设也体现了技术与业务紧密结合的重要性。我们深入分析了医疗机构的业务需求和安全需求,将网络安全技术与医疗信息化场景相结合,实现了技术的落地应用和业务价值的提升。

  此外,本次项目的成功也得益于团队的专业素养和紧密合作。团队成员在网络安全领域具有丰富的经验和技能,能够高效地完成系统的设计和开发工作。同时,团队成员之间的紧密合作和沟通也保证了项目的顺利进行和高质量完成。

  未来,随着医疗信息化建设的不断深入和网络安全威胁的不断变化,我们将继续优化和完善该系统,为医疗机构提供更加全面、高效、智能的网络安全保障。同时,我们也希望与更多的合作伙伴共同推动医疗信息化的发展,为提升医疗服务质量和效率做出更大的贡献。

  申报单位

  福建省人民医院(暨福建中医药大学附属人民医院)

  案例赛道

  网络安全创新

  业务领域

  医院管理