
1.3 网络安全应急响应技术框架
在应急响应过程中,能够用到的技术如图1-3所示,为了方便归类,将网络安全应急响应暂时分为4个阶段(采用广义的应急响应概念描述):准备阶段(防御阶段)、检测(发现)阶段、遏制和根除阶段(处置阶段)、恢复和总结阶段,某些安全技术能够在不同阶段均发挥效用,且所有技术均以一个安全产品或一组安全产品的形态工作,部署在网络边界、基础设施和计算环境之中,技术能效的发挥依靠管理体系的建立和技术人员的能力驱动。

图1-3 应急响应技术框架
1.准备阶段(防御阶段)
这一阶段用到的安全技术主要是以加固系统安全性为主,并通过部署各种情报和行为检测技术从而发现安全事件。包括:
(1)支撑性安全技术
支撑性安全技术包括密码学、搜索引擎、数据保护(脱敏)技术等普适性的安全技术,主要为其他技术的实现提供基础支撑。
(2)安全审查技术
安全审查技术包括漏洞发现和验证、基线核查等技术,用于主动发现系统安全隐患,加固系统。
(3)系统备份技术
系统备份技术是对系统和数据进行离线镜像、在线冗余等技术的统称,主要用于提高系统和数据的可用性。
2.检测(发现)阶段
这一阶段的技术主要是以提前感知威胁变化和发现网络安全事件为主。包括:
(1)威胁情报技术
威胁情报技术是通过获取海量的与网络安全关联的信息(包括弱关联信息),采用分级进行处理或通报,使得组织能够快速了解针对特定网络的威胁情况,广义上威胁狩猎也被纳入其中,将在1.4.2小节进行更详细的描述。
(2)态势感知技术
态势感知技术是指在综合分析外部情报和网络系统内部情况的基础上,获取目前网络的运行态势,广义上将入侵检测也纳入其中,也将在1.4.2小节进行更详细的描述。
(3)入侵防护技术
常见的如Web应用防火墙(Web Application Firewall ,WAF)等攻击和恶意代码检测与防护技术,但此类设备的日志可被用于态势感知系统进行高级可持续威胁攻击(Advanced Persistent Threat,APT)攻击的综合检测。
(4)访问控制技术
访问控制技术是实现在操作系统、防火墙、路由器等设备上对资源的访问进行鉴别、授权和记录的技术总称。
(5)协同支撑技术
协同支撑技术是用来实现各合作方的安全事件上报,通报和披露,以及应急响应流程支撑。
3.遏制和根除阶段(处置阶段)
这一阶段除包含的技术主要用于减少安全事件对系统的影响,并将系统的不良态势清除,这一阶段的特点是针对不同类型的攻击或恶意代码感染,需要在工具和设备的支持下,采用大量的人工操作。这类技术包括:
(1)入侵防御技术
入侵防御技术是指能够根据检测系统发现的异常情况,对恶意行为进行阻断的技术,或能够快速进行网络隔离的技术。
(2)取证技术
取证技术是指发现安全事件线索,取得数字证据的技术,用以发现安全事件产生的根本原因和证据。
(3)审计技术
审计技术是对各类日志进行审计,也是获取安全事件产生的根本原因和对系统的影响的技术之一。
4.恢复和总结阶段
这一阶段涉及的技术是尽可能地将系统恢复至网络安全事件发生前的状态,重新提供服务。主要包括:
(1)实时容灾技术
实时容灾技术是指采用热站或分布式系统,对系统和数据进行实时备份与恢复的技术,严格来讲,属于灾难备份与恢复技术中的一种,比如支付宝的容灾技术,采用了3地5中心的异地多活架构,可以做到双光纤切断下26秒自动恢复业务。
(2)备份恢复技术
备份恢复技术指的是备份分发技术,能够帮助组织快速将准备阶段的系统镜像下发,恢复系统状态和数据。
(3)系统验证技术
系统验证技术是指验证系统是否恢复完全的技术。
其中主机防护技术基本上涵盖了上述4个阶段,目前业界推出的各类终端探测响应系统(End Detection and Response,EDR)和扩展探测响应系统(eXtended Detection and Response,XDR)等产品,均是针对主机的计算环境,提供了防护、检测、遏制和根除,乃至恢复的功能,XDR核心理念是通过各类情报和安全数据分析,为主机安全事件的响应和处置提供更有力的决策支持,值得注意的是在某些工业互联网场景,部署XDR时应该考虑业务的分区分域需求和XDR网络连通需求之间的矛盾。
1.3.1 应急响应预案
凡事预则立,编制应急响应预案虽然不只是技术工作,但应急响应预案(也称应急响应计划)是将管理、技术、人员和流程统一描述,提供指导的基础文件。在应急响应工作中起到指导性作用,使应急工作能够有据可依,快速反应,流程标准。根据国家标准GB/T 24363—2009《信息安全技术信息安全应急响应计划规范》,一份完整的应急响应计划文档应该包含以下内容:
·总则:包括编制目的、编制依据、适用范围和工作原则。
·角色及职责:包括角色的划分,各功能小组的组成和职责以及内外部协调和协作机制。
·预防和预警机制:主要是采用何种机制进行预防和监测,以及明确安全事件上报、通报和披露制度。
·应急响应流程:明确事件分类分级机制,信息通报、信息上报的时间、顺序、形式等要求,以及应急响应计划的启动、处置、恢复顺序、恢复规程、系统重建和总结等后期处置流程。
·保障措施:明确人力、物力、技术等方面的保障要求。
·附件:如备份存入点,工具设备清单和计划的演练等其他应急响应预案主体不包含的内容。
某些组织将应急预案做得非常详细,除了上述内容,还包括应急响应每个阶段的工作内容、流程、方法和细节说明以及对工具的定义。
1.3.2 组织架构
2017年,中央网络安全和信息化领导小组办公室(以下简称“中央网信办”)印发了《国家网络安全事件应急预案》,明确了针对国家网络安全事件应急响应的组织机构与职责,在中央网络安全和信息化领导小组的领导下,中央网信办统筹协调组织国家网络安全事件应对工作,工业和信息化部、公安部、国家保密局等相关部门按照职责分工负责相关网络安全事件应对工作。必要时成立国家网络安全事件应急指挥部(以下简称“指挥部”),负责特别重大网络安全事件处置的组织指挥和协调。中央和国家机关各部门按照职责和权限,负责本部门、本行业网络和信息系统网络安全事件的预防、监测、报告和应急处置。各省(区、市)网信部门在本地区党委网络安全和信息化领导小组统一领导下,统筹协调组织本地区网络和信息系统网络安全事件的预防、监测、报告和应急处置工作。对于企事业单位等具体组织而言,也应该成立本单位的应急响应工作组织,明确各小组或团队的分工和职责,保持协调联动,一般来讲,单位级别的应急响应组织应涵盖领导、管理、执行和保障四个层面,可参考GB/T 24363组建本单位的应急组织。
1.团队组成
在网络安全保障工作中,技术是基础,管理是关键,组织是核心,业务是导向,网络安全应急响应工作亦如此,完善的组织架构是保证应急工作得以落实的前提。从理论上来讲,一个组织的网络安全应急响应架构如图1-4所示,应急响应的工作机构由管理、业务、技术和行政后勤等人员组成,实际上,可以不必专门成立对应的功能小组,组织可以根据自身情况由具体的某个或某几个部门或部门中的某几个人担当其中的一个或几个角色。

图1-4 网络安全应急响应组织架构
(1)应急响应领导小组
应急响应领导小组是信息安全应急响应工作的组织领导机构,组长应由组织最高管理层成员担任。领导小组的职责是领导和决策信息安全应急响应的重大事宜。
(2)应急响应专家小组
应急响应专家小组主要对重大信息安全事件进行评估,提出启动应急响应级别的建议,研究分析信息安全事件的相关情况及发展趋势,为应急响应提供咨询或提出建议,分析信息安全事件原因及造成的危害,为应急响应提供技术支持。
(3)应急响应技术保障小组
应急响应技术保障小组的主要任务是制定信息安全事件技术应对表、具体角色和职责分工细则、应急响应协同调度方案,并负责考察和管理相关技术基础。
(4)应急响应实施小组
应急响应实施小组主要分析应急响应需求(如风险评估、业务影响分析等),编制和实施应急响应计划文档,组织应急响应计划的测试、培训和演练,合理部署和使用应急响应资源,总结应急响应工作,提交应急响应总结报告,执行应急响应计划的评审、修订任务。
(5)应急响应日常运行小组
应急响应日常运行小组的主要任务是协助灾难恢复系统实施,备份中心日常管理,备份系统的运行和维护,应急监控系统的运作和维护,参与和协助应急响应计划的测试、培训和演练,维护和管理应急响应计划文档,信息安全事件发生时的损失控制和损害评估。
2.协作机制
实际工作中,企事业单位的网络安全应急响应工作和网络信息安全保障工作往往是由同一组人来实施的。应急响应小组的角色也没有理论上的细分,通常只设置领导小组,IT技术支撑小组和应急响应小组,如图1-5所示,领导小组包含了专家和顾问组,以及市场公关组,在互联网新媒体传播环境下,企事业单位越来越重视公共舆论的传播,一旦内部网络发生安全事件,将会面临公共舆论的关切,特别是用户数量较多的大型企业,一般会在新媒体官方公共账户上与公众互动,发布企业应急响应的动态信息等,并且,企业市场公关行为事关企业形象和声誉,因此将市场公关组职能放在决策中心层面。在具体职能上,领导小组对网络安全应急工作进行统一指挥,网络安全应急响应办公室具体负责执行。例如,应急办公室负责各类上报信息的收集和整体态势的研判、信息的对外通报等;相关业务线的协调工作是指,网络安全事件影响了机构或企业的某些业务,使之无法正常运行,甚至瘫痪,需要业务线相关人员参与到应急响应工作中,配合查明原因,恢复业务;各专项保障组在各级网络安全应急办公室的领导下,承担执行网络系统安全应急处置与保障工作;技术专家组的任务是指导技术实施人员采取有效技术措施,及时诊断网络安全事故,及时响应;顾问专家组则主要提供总体或专项策略支持,而市场公关组则负责对外的消息发布,以及应急处置情况的公开沟通与回应。

图1-5 应急响应内外部协调体系架构
在外部协调上,应急办公室需要和政府机构,如网信部门、公安部门、工信部门、CNCERT/CC等及时通报情况,并沟通应急处置事宜;业务关联方、供应商也是外部协调对象。通常来说,安全服务专业厂商也是供应商的一种,但是从近年网络安全应急响应实践来看,专业安全服务厂商的作用越来越大,也受到各方的重视,因此在一般模型中单独列出。
需要强调的是,网络安全应急办公室是应急响应执行的关键组织保障,其负责人需要在有足够的协调能力的同时,加上足够的权力,才能调动内部部门、主营业务领域的协同力量。机构内部的专家咨询小组和技术咨询小组对网络安全应急响应的制度流程建设完善有重要支撑作用,在应急事件响应上也发挥参谋作用,并且需要和保障层的软件供应商、设备供应商、系统集成商、服务提供商的相关技术支持人员,以及专业安全厂商的支持人员保持密切配合。
3.案例展示
某大型活动网络安全保障工作中针对官网和注册网制定了突发事件协同应急预案,其中的组织架构包括应急协同工作领导小组、应急预案制定小组、应急执行小组、技术保障小组、支持保障小组,职责分工如下:
(1)应急协同工作领导小组
·负责突发事件的应急指挥、组织协调和过程控制。
·明确新闻发布人,授权其在应急过程中统一对外信息发布口径。
·宣布重大应急响应状态的降级或解除。
·向国家上级部门报告应急处置进展情况和总结报告。
(2)应急预案制定小组
·评估各类突发事件的等级,确定应急预案制定计划与方案。
·组织编写官网突发事件应急预案。
·负责官网突发事件应急预案的维护与修订。
(3)应急执行小组
·实施突发事件的具体应急处置工作。
·对突发事件业务影响情况进行分析和评估。
·收集分析突发事件应急处置过程中的数据信息和日志。
·向应急领导小组报告应急处置进展情况和事态发展情况。
(4)技术保障小组
·为突发事件的具体应急处置提供全面的技术支持与保障。
·建立与软硬件技术厂商的应急联动机制,制定具体角色与职责分工。
(5)支持保障小组
·提供应急所需人力和物力等资源保障。
·做好秩序维护、安全保障、法律咨询和支援等工作。
·建立与电力、通信、公安和消防等相关外部机构的应急协调机制和应急联动机制。
·其他为降低事件负面影响或损失提供的应急支持保障等。
1.3.3 应急工作流程
1.事件通告
应急响应流程中,需要大量的内外部协调工作,各工作小组之间需要信息通报和上报,如图1-6所示,某突发事件应急通报流程,当安全事件发生时,业务人员需要立即通报技术保障小组副组长,进行初步应急,同时通报应急执行小组副组长,由其向应急领导小组汇报,并通报技术保障小组组长。整个应急响应从事件发现到总结汇报,涉及多次信息通报和上报,应急处置后还需要按既定预案进行信息披露,我们将信息通报、信息上报和信息披露统称为信息通告。

图1-6 应急响应过程中的通告流程
(1)信息通报
信息通报又分为组织内部通报和外部通报,内部通报是协同工作的基础,外部通报是将相关信息及时通报给受到负面影响的外部机构、互联的单位系统以及重要客户,一是协同应急的需要,二是获得相应的支持。
(2)信息上报
信息上报是指信息安全事件发生后,应按照相关规定和要求,及时将情况上报相关单位或部门。
(3)信息披露
信息披露是指信息安全事件发生后,根据信息安全事件的严重程度,组织指定特定的小组及时向新闻媒体发布相关信息,指定小组应严格按照组织相关规定和要求对外发布信息,同时组织内其他部门或者个人不得随意接受新闻媒体采访或对外发表自己的看法。
2.事件分类和定级
网络安全事件的分级分类是快速有效处置信息安全事件的基础之一,事件分类有助于确定事件的处置方法,事件定级有助于明确信息通报、上报等处置要求,以及明确是否需要立案启动法律程序等合规性要求。确定网络安全事件发生后对系统损坏性质和损坏程度的评估,是启动和实施应急响应预案的前提。这个损害评估应该在确保人员安全优先任务的前提下尽快完成,所以应急响应日常运行小组或专家组应该是第一个得到事件通知的小组,以便尽快得出评论结果。损害评估的侧重点“因系统而异”,但是总的来说,应该从以下几个角度进行分析。
(1)受到紧急情况影响的业务系统或区域
无论在何种情况下,保证组织的业务连续性和重要性始终都是应急响应的首要目标。所以,应该首先评估组织的主要业务系统或业务区域受到何种程度的影响,并以此作为事件定级的主要依据。
(2)潜在的附加影响或损失(即次生灾害)
由于信息系统将组织的业务与其他组织的业务越来越密切地联系在一起,所以,对网络安全事件的滞后影响和次生灾害也应当予以评估。
(3)造成紧急情况或系统中断的原因
在评估业务影响的同时,也积极组织技术力量分析造成安全事件的原因。需要指出的是,对于许多组织而言,特别是那些业务连续性非常重要的组织,应当“先解决后问责”,如立即启动备份系统确保业务尽快恢复到正常状态,随后再分析事故起因。对于那些业务联系连续性要求不高的组织(如企业门户网站等)则可先分析事故起因,再按照应急响应预案确定解决办法。
(4)物理环境(如中心机房结构的完整性、电源、通信及制热、通风和空调的情况)的状况
要注意网络安全事件并不总是等于“黑客攻击事件”,在很多情况下是由于设备故障或物理环境改变甚至仅仅是通信线路接口松脱引起的。所以,在考虑事故定级的同时,也应该快速检测物理环境是否有所改变。
(5)系统设备的总量和功能状态
系统设备的总量和功能状态,如具备主要功能、具备部分功能、丧失所有功能等。
(6)系统设备及其存货的损失类型
系统设备及其存货的损失类型,如水害、水灾或热能、物理及电涌影响。
(7)被更换的项目
被更换的项目主要有硬件、软件、固件或支持材料等。
(8)估计恢复正常服务所需的时间
事件定级标准可遵照国家《信息安全技术信息安全事件分类分级指南》,详细内容请参见2.2小节。
3.应急启动
应急响应预案的启动(激活)代表“作战命令”的正式下达,组织的信息系统甚至整个组织就从“平时运行维护状态”转入了“战时应急状态”。预案的启动应该注意以下三点。
(1)启动原则
启动原则具有果断、快速、有序的特点。“果断”是指应急响应领导小组基于安全事件的评估结论,定下响应决心。因此事件评估是指挥决策的关键。“快速”与“有序”是指整个应急响应团队的协同要非常流畅,包括预案启动的通知、人员到位、事件处理、外协单位(如应急设备供应商等)进场等应按照响应流程有条不紊地展开。
(2)启动依据
一般而言,对于导致业务中断、系统宕机、网络瘫痪等突发网络安全事件应该立即启动应急响应预案。但由于组织规模、构成、性质等的不同,不同的组织对突发、重大网络安全事件的定义可以不一样,因此,各个组织的应急响应预案的激活条件可能各不相同。激活条件可以基于以下4个方面考虑:
·人员的安全或数据、设施的损失程度。
·系统损失的程度(如物理的、运作的或成本的)。
·系统对于组织业务的影响程度(如保护资产的关键基础设施)。
·预期的中断持续时间。
当对系统损害评估的结果显示一个或多个条件被满足时,就应该立即启动相应预案。
(3)启动方法
一般情况下,总是由网络安全应急响应领导小组发布应急响应启动令。但需要注意的是,在特殊情况下(如特别重大网络安全事件的发生或特殊组织、特殊岗位等),事件发生现场人员应该按照预先制定的响应方案立即采取抢险措施,同时请示网络安全应急响应领导小组发布应急响应启动令,以获取更大范围的支持。一种有效方法是由网络安全应急响应领导小组事先授权给特殊岗位的人员,以便在特殊情况下第一线人员能够果断决定。但使用这种例外的方法时要慎重,在平时就应该由网络安全应急响应领导小组进行仔细研究和审批。
4.应急处置
应急响应启动令一旦下达,就应该立即采取相关措施抑制和清除网络安全事件影响,避免造成更大的损失。目前,在网络安全领域对应急响应和灾难恢复没有严格的区分,因为这牵涉到组织的规模、安全事件的影响范围等因素。一般而言,一个组织的规模越小,业务范围越窄,受影响的系统越少,应急响应与灾难恢复就属于同一个范畴。但是对于关键部门、重要信息系统(如省级或省级以上的电子政务系统、金融、电力、能源、交通、航空等国家重要基础设施的信息系统),应急响应与灾难恢复就应当加以区别,这就如同特大自然灾害发生后的抢险救灾与灾后重建是两个不同(当然也密切相关的)阶段,各自有其工作重心、恢复时间和恢复目标。有兴趣的读者可参阅国家有关《信息系统灾难恢复指南》等标准和国外有关机构的相关资料,以便在应急响应和灾后恢复工作中加以细化。
在采取应急措施有效控制了网络安全事件影响后,就应该开始恢复操作,恢复阶段的行动集中于建立组织的临时业务处理能力(如备份数据的导入等)、修复受损害的系统、在原系统或新设施中恢复业务运行能力等应急措施。
下面分别对恢复顺序、恢复任务和恢复流程等进行说明。
(1)恢复顺序
在进行系统应急恢复时,恢复顺序就是业务影响分析(Business Impact Analysis,BIA)中确定的系统恢复优先顺序,一般做法是评估组织各项业务的重要程度,确定支撑各种业务的信息系统,并结合各子系统的依赖关系确定恢复优先级,因本身以网络安全应急响应技术方面内容为主,对业务的优先级相关问题不展开讨论。
(2)恢复任务
为了有条不紊地进行恢复操作,网络安全应急响应预案需要提供详细的恢复任务,并事先将这些任务分配给适当的恢复小组。恢复任务通常涉及以下行动。
·获得访问受损设施和地理区域的授权。例如,在应急响应人员抵达现场时,由于受损设施在平时往往有相应的安全防护手段(口令等),或者涉及组织敏感业务而需要授权进入/使用,因此要保证必要的信息沟通以便抢险人员“无障碍”地展开工作。对于实行远程救援指导的专家,这些信息沟通显得更为重要。
·通知相关系统的内部和外部业务伙伴,内部人员和外部业务伙伴除了参与应急响应的人员之外,还包括组织的业务部门相关人员。例如,一个组织的财务软件系统严重受损,原材料采购部门和销售部门的人员就应该获得通知,同时外部业务合作伙伴和银行等相关人员也应该获得通知。
·获得所需的应急用品和工作场所。应急用品包括软件(如操作系统、数据库、数据恢复软件、组织业务系统所运行的大型专用软件等)、硬件(如替换双机热备中受损主系统的硬件、数据恢复专用设备、存储设备、介质和光缆等)和网络检测设备等;应急工作场所一般情况下应当是在事故发生现场,但对于重大安全事件(如机房火灾、爆炸),则需要开辟临时工作场所。这些工作均需根据组织的实际情况,事先考虑在应急预案之中。
(3)恢复流程
针对恢复任务,需要整理出分解给各个应急小组的恢复流程。网络安全应急响应预案的编写人员要将其逐一细化并落实在应急响应预案中。恢复流程应按照直接和分步骤的方式书写。为了防止在网络安全事件中产生误解或混乱,不能假定或忽略规程和步骤,并且需要在应急演练中不断完善。
5.后期处置
通过应急处理成功解决网络安全事件后,应急响应工作并未结束,还需要尽快组织相关人员进行信息系统重建,同时需要对网络安全事件应急响应进行总结,如果有必要还需对应急响应预案进行完善。
(1)信息系统重建
应急处置工作结束后,要迅速采取措施,抓紧组织抢修受损的基础设施,减少损失,尽快恢复正常工作。具体的方法如下:
·统计分析各种数据,查明原因。例如,收集和分析各种日志记录和监控设备录像等。这个步骤在事后的责任追究甚至法律介入时将起到非常关键的作用。组织应指定专人(或专业机构)妥善保管各种电子文档。
·对网络安全事件造成的损失和影响及恢复重建工作进行分析评估。对照BIA所确定的各项指标,评估现有的状态与这些指标之间的差距,进而分析弥补这些差距所需要投入的各种资源(人力、物力、重建周期等)。
·认真制定恢复重建预案。在充分分析论证的基础上,制定重建预案并组织实施信息系统重建工作。对已经发生的安全事件要有足够的应对措施。
·重建工作完成后,对所采取的措施要进行(简要的)风险评估,使组织的业务从“战时状态”恢复到“平时状态”,并为下一次进入“战时状态”做好准备(所以说,风险评估与应急响应是一个组织网络安全的常态性工作)。
(2)应急响应/事件总结
应急响应/事件总结是应急处置之后应进行的工作,具体工作如下。
·分析和总结事件发生原因。
·分析和总结事件现象。
·评估系统的损害程度。
·评估事件导致的损失。
·分析和总结应急处置记录。
·评审应急响应措施的效果和效率,并提出改进建议。
·评审应急响应预案的效果和效率,并提出改进建议。
1.3.4 应急演练规划
网络安全应急演练是应急响应工作中重要的环节,用以检验组织的应急响应计划(预案)合理性、应急综合能力和应急流程把控能力,符合网络安全保障PDCA方法论(Plan-Do-Check-Action)的思想,也是2017年中央网信办发布的《国家网络安全事件应急预案》通知要求。
应急演练方案是支撑应急演练有效执行的基础文档,一般来讲,一份完整的应急演练方案除了明确指导思想和原则,还应包括以下部分。
·组织机构:明确应急演练指挥、协调、工作执行等各工作组架构职责等。
·演练方案:明确演练时间、演练主要内容和目的等。
·演练准备:如何开展演练培训和教育和各参与方的保障要求等。
·演练流程:定义演练各个环节工作流程。
·注意事项:针对演练的风险规避要求和计划。
·演练要求:演练过程记录文档化等要求。
·总结汇报:定义演练总结和汇报的机制。
应急演练规划过程应该将测试、培训和演练的整个过程进行详细的记录,并形成报告,演练过程不能打断信息系统正常的业务运转,演练过程应该与应急响应计划的更新维护工作形成闭环。其他关于应急演练的详细介绍,参见第4章内容。