机房安全突发事件应急预案(2023)
2023年09月01日 17:20 来源:用户服务部    浏览数: 返回列表

为切实做好机房突发事件的防范和应急工作,建立健全机房安全应急机制,有效预防、及时控制并最大限度消除机房突发事件的影响,确保校园网的安全与稳定,秉持“统一领导、统一指挥、各司其职、协调配合、预防为本、及时处置、全程记录、追查根源”的原则,结合工作实际,特制定本应急预案。

1.机房突发事件分类

自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。

事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。

人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。

2.应急处理组织机构

单位成立机房突发事件应急工作领导小组(以下简称应急小组)。由单位主要负责人担任组长,分管副主任担任副组长,各科室负责人担任成员。

组长:赵艳忠

副组长:李媛、李辰、程前帅

成员:贾笑明、宋新鹏、李俊、范素娟

3.应急处理组织机构人员岗位职责

3.1应急组长职责

(1)保证在任何时间,及时协调应急行动所有涉及的岗位人员。

(2)提供必须的应急响应设备。

(3)在紧急情况下全面负责应急行动。

(4)在必要时向外界求救,例如:119、110、120等。

3.2应急副组长职责

(1)在组长领导下具体开展工作,组长不在现场时履行组长职责。

(2)根据获得的应急信息下达命令。

3.3应急成员职责

(1)负责尽快收集信息并向单位应急领导小组汇报事故情况。

(2)负责现场临时设备抢救和对事态的控制。

(3)听从上级指挥人员的指挥。

4.机房安全突发事件处理原则

4.1预防为主。立足安全防护,加强预警,重点保护基础信息网络和重要信息系统,从预防、监控、应急处理、应急保障等环节,在管理、技术、人员等方面采取多种措施充分发挥各方面的作用,共同构筑机房安全保障体系。

4.2快速反应。突发事件发生时,按照快速反应机制,及时获取充分而准确的信息,跟踪研判,果断决策,迅速处置,最大限度地减少危害和影响。

4.3分级负责。按照“谁主管,谁负责”的原则,建立和完善安全责任制及联动工作机制。根据各负责人的职能,各司其职,加强各负责人的协调与配合,共同履行应急处置工作的管理职责。

4.4以人为本。把保障人员以及公共利益的安全作为首要任务。

4.5常备不懈。规范应急处置措施与操作流程,定期进行预案演练,确保应急预案切实有效,做到机房安全突发事件应急处置的科学化、程序化与规范化。

5.机房应急开关机具体措施

机房各设备关闭顺序如下:

6.服务器及存储设备故障处理

6.1排错流程

6.2应急处置具体措施

6.2.1服务器设备损坏应急处置措施

(1)关键应用系统所在服务器设备损坏后,网络信息部负责任应立即查明原因,与维护人员联系解决方案,及时恢复应用系统的正常使用。

(2)如无法恢复,应立即与设备供应商联系,要求派技术人员前来处置。

6.2.2服务器软件损坏紧急处置措施

(1)网络信息部负责人及时联系维护人员迅速查找原因,尝试重启系统,必要时迅速联系开发商进行解决。

(2)当发现有服务器感染病毒后,网络信息部工作人员应立即将该服务器从网络上隔离出来。并启用杀病毒软件对其进行杀毒,同时使用病毒检测软件对其他机器进行病毒扫描和清除工作。经技术人员确认无法查杀该病毒后,应作好相关记录,并迅速联系有关产品供应商研究解决。

(3)当因空调、电力等问题需要关闭服务器时,应遵循如下步骤:

先关闭所有应用服务器和数据库服务器,再关闭存储设备。启动服务器时,应先打开存储设备,再打开数据库服务器,最后打开应用服务器。

6.2.3服务器突发情况记录文档

日期

故障发生时间

服务器名称

IP

现象

处理情况

故障恢复时间

处理人员

备注




























7.网络设备故障处理

7.1网络设备排错流程

当发生网络故障时应按照此流程快速进行定位、排除故障。网络设备的排错流程如下:

7.2网络系统故障突发事件分级

故障等级

障 现 象

Ⅰ级

网络完全拥塞或设备宕机

网络或设备处理能力严重受影响,对最终客户端的业务运作有严重影响

网络或设备故障对重要的程序造成严重影响

Ⅱ级

网络或设备的性能严重下降,对最终客户端的业务运作产生重要影响

部分区域网络故障

一般网络节点发生故障

大部分客户端的网络通讯质量下降

Ⅲ级

网络或设备性能受损,但最终客户端大部分业务仍可正常工作

报警出错和操作命令反常

Ⅳ级

其它一般的故障,不影响系统的整体运行,不影响大部分客户端的使用

7.3应急措施

7.3.1黑客攻击时的紧急处置措施

(1)当发现网页内容被篡改或通过其他方式发现有黑客正在进行攻击时,网络安全负责人应立即对攻击地址进行网络阻断。

(2)网络安全工作人员立即备份log日志并采用端口限制方式阻断外部的入侵,观察被攻击的服务器等设备状态,同时向主管领导汇报情况。

(3)网络信息部负责人协调相关部门技术人员,负责被破坏系统的恢复与重建工作。

(4)网络安全负责人协同有关部门共同追查非法信息来源。

(5)情况严重的,由单位应急领导小组根据突发事件级别及时向有关上级部门汇报。

7.3.2病毒安全紧急处置措施

(1)当发现服务器感染有病毒后,网络信息部负责人应协调相关维护人员立即将该机从网络上隔离出来,通知维护人员对该设备的硬盘进行数据备份,并向主管领导报告。

(2)维护人员启用杀病毒软件对该机进行杀毒处理,同时用病毒检测软件对其他机器进行病毒扫描和清除工作。

(3)如发现杀病毒软件无法清除该病毒,网络信息部负责人应立即向单位应急领导小组报告,经单位应急领导小组确认无法查杀该病毒并同意格式化硬盘后,作好相关记录,并格式化硬盘。

(4)机器恢复后重新开启网络设备的相应端口。

(5)情况极为严重的,由单位应急领导小组根据突发事件级别应及时向有关上级部门汇报。

7.3.3广域网线路中断紧急处置措施

(1)链路出现问题后,网络运行部负责人应立即向主管领导报告,沟通地方节点技术人员共同迅速判断故障,查明故障原因。

(2)如属我校管辖范围,由双方技术人员立即配合予以恢复。如遇无法恢复情况,立即进行备件更换或向有关厂商请求支援。

(3)如属运营商管辖范围,立即向运营商维护部门申报故障,请求修复。

(4)由单位应急领导小组根据突发事件级别应及时向学校和有关上级部门报告。

7.3.4局域网中断紧急处置措施

(1)局域网中断后,网络运行部负责人应立即判断故障节点,查明故障原因,并向主管领导汇报。

(2)如属线路故障,应尽快查明断点,根据实际情况更换线路或联系线路运维厂商进行线路恢复,必要时重新铺设线路。

(3)如属交换机等网络设备(光模块)故障,应立即查找是否有相关备件可以替换,或与设备供应商联系更换设备,并调试畅通。

(4)如属交换机配置文件破坏,应迅速按照备份配置文件重新配置,并调试畅通。如遇无法解决的技术问题,立即向有关厂商请求支援。

(5)情况严重的,由单位应急领导小组根据突发事件级别应及时向学校和有关上级部门汇报。

7.4网络突发事件记录文档

日期

故障发生时间

线路

设备IP

端口

现象

处理情况

故障恢复时间

处理人员

备注































8.空调设备故障处理

机房管理人员应定期对空调运行情况进行检查,如有报警信息,应及时查找故障原因,对不能自行排除的问题,应第一时间联系供应商和/或维保方,并及时报告主管领导和单位应急领导小组。

如空调出现硬件问题,应第一时间通知供应商前来维修,并及时报告主管领导。机房管理人员应密切关注机房内温度并及时向应急小组汇报,温度超过30度且空调系统无法启动,应急小组积极组织人员开始对次要设备进行关机。温度超过35度且空调系统无法启动,单位应急领导小组积极组织人员开始对绝大部分设备进行关机。

9.电源设备故障处理

机房管理人员应定期对机房UPS电源系统及蓄电池情况进行检查,如有报警信息,应及时查找故障原因,对不能自行排除的问题,应第一时间联系供应商和/或维保方,并及时报告主管领导和单位应急领导小组。如发现蓄电池有腐蚀、漏液、变形、过热或其他异常情况,应立即联系供应商进行更换,并及时报告主管领导和单位应急领导小组。

10.机房停电应急处理

10.1应急处理流程

 

 

10.2处理措施

(1)事件发现:机房管理人员接到停电报警短信后,立刻通知机房主管领导,并向单位应急领导小组报告。

(2)应急指挥:由单位应急领导小组根据停电情况进行统一指挥。

(3)应急处理:机房管理人员立即检查机房供电情况,如UPS是否正常供电,备用发电机组是否正常启动,如果无法正常启动及时联系UPS供应商和/或发电机供应商,通过电话指导解决,同时查看机房当前温度情况。机房温度超过30度且空调系统无法启动,积极组织人员开始对次要设备进行关机。机房温度超过35度且空调系统无法启动,积极组织人员开始对绝大部分设备进行关机。机房来电后先与学校电工班确认供电是否恢复正常,如完全正常,先开启空调系统,并根据设备关机的反序开机,并及时检查各项服务是否正常启动。

(4)应急结束:情况处理完毕,供电恢复正常,视为应急流程结束。

11.机房设备损坏应急预案

 

 

11.1损坏设备处理流程

11.2应急措施

(1)事件发现:机房管理人员应对系统运行情况进行实时监控,发现问题及时处理,消除安全隐患。当机房发生设备损坏时,应及时报告主管领导和单位应急领导小组。

(2)应急指挥:单位应急领导小组及机房负责人要迅速到达一线指挥紧急情况处理,判断损坏设备情况,若为人为破坏,需及时向公安机关报告,若因不可抗拒原因损坏,则采取应急措施。

(3)应急处理:小型机、服务器、存储等关键设备损坏后,机房管理人员应立即向主管领导汇报情况,同时尽快查明原因,并与设备供应商联系,要求派遣维修人员赶赴现场处理。如果无法修复,应发起采购申请,待新设备到位后,由相关科室进行系统恢复或重建。

(4)应急结束:情况处理完毕,系统恢复正常运行,视为应急结束。

12.机房设备被盗案件应急处理

12.1报警程序:

(1)发现机房设备被盗案件时应及时向主管领导和单位应急领导小组报告。

(2)单位应急领导小组根据案情向保卫处及公安机关报案。

12.2处置措施:保护现场。

12.3注意事项:

(1)保护好现场,为侦破案件提供条件。

(2)积极协助公安人员调取机房监控视频、勘察现场。

信息化管理办公室

2023年09月

师生意见信箱:net@henu.edu.cn       Copyright © 河南大学信息化建设与管理办公室 版权所有