欢迎访问北京卓越同舟咨询有限公司!提供iso认证,质量体系认证,售后服务认证,信息安全认证,业务连续性认证,食品安全体系认证服务!
SERVICE ITEMS

服务项目

ITSS符合性评估

您当前所在位置: 首页 > 服务项目 > 认证评价咨询 > ITSS符合性评估

[ITSS标准] 信息技术服务 运行维护 第4部分:数据中心规范 1/3

发布时间: 2019-01-07 09:53:54

(报批稿)

  引言

  随着各行业、各领域信息化工作的深入开展,有越来越多的信息系统进入运行维护阶段。然而,提供运行维 护服务的各类组织的能力水平参差不齐,需方缺乏评价或选择供方的方法、手段及规范。本标准对不同服务对 象、服务过程和服务需求的能力要素进行抽象,并通过关键指标对服务能力进行评价;针对不同服务对象的运行 维护服务过程、服务交付内容及特定服务需求提出了要求。

  本部分规定了数据中心运行维护服务的对象、服务策略、交付内容等要求,旨在规范数据中心运行维护服务供 方(以下简称供方)行为、改进服务能力及提高数据中心运行维护服务的工作效率。数据中心运行维护服务的服 务需方(以下简称需方)可以参照本部分提出明确的数据中心运行维护服务需求。本部分亦适用于需方选择和评 价供方。

  本部分的第4章提出了数据中心运行维护服务的对象和服务的交付内容,以及它们之间的关系。

  本部分的第5章阐述了数据中心运行维护服务的基本策略。

  本部分的第6章对数据中心运行维护服务交付内容进行了详细的描述。

  1   范围

  本部分规定了数据中心运行维护服务的对象、服务策略、交付内容等要求。

  本部分适用于规范供方针对数据中心服务对象提供的运行维护服务内容,也可供需方参考使用。

  2   规范性引用文件

  下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文件。凡是不 注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。

  GB/T 22080信息技术 安全技术 信息安全管理体系 要求

  GB/T 22081信息技术 安全技术 信息安全管理实用规则

  GB/T 24405.1-2009信息技术 服务管理 第1部分:规范

  SJ/T XXXXX.3信息技术服务 运行维护 第3部分:应急响应规范

  3 术语、定义和缩略语

  3.1 术语和定义

  下列术语和定义适用于本文件。

  3.1.1

  数据中心datacenter

  以信息技术为支撑,实现应用集中处理和数据集中存放,提供数据的构建、交换、集成、共享等信息服务的 基础环境。

  3.1.2

  配置管理数据库configuration management database

  包含每一个配置以及配置项之间重要关系的详细情况的数据库。

  [GB/T 24405.1-2009信息技术服务管理-规范,定义2.5]

  3.1.3

  工作说明书statement of work

  合同的重要附件之一,详细规定了合同双方在合同期内应完成的工作,如项目范围、工作描述、进度表、风险、需方责任等。

  3.1.4

  服务级别协议service Level agreement

  服务提供商与服务需方之间签署的记录了服务和约定服务级别的协议。

  [GB/T 24405.1-2009信息技术服务管理-规范,定义2.13]

  3.1.5

  外部事件external events

  为服务对象运行提供支撑的、协议获得的、不可控、非自主运维的服务资源(例如互联网、市电、租赁的机 房等等)中断引发的事件。

  3.1.6

  系统事件system events

  在服务对象范围内的、自主管理或运维的系统资源服务中断引发的事件。

  3.1.7

  安全事件security events

  由于安全边界破坏、安全措施或安全设施失效,造成的安全等级下降或信息被非法盗用等需方(数据中心) 利益被侵害的事件。

  3.1.8

  虚拟资源池 Virtual resource pool

  指通过使用虚拟化技术对数据中心的计算、存储、网络等物理资源进行虚拟化,通过管理软件来动态部署给 用户使用,这些被虚拟化集中管理的资源叫做虚拟资源池 Virtual Resource pool。

  3.1.9

  虚拟机virtual machine

  指通过软件模拟的具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。

  3.1.10

  宿主机 hypervisor

  指运行虚拟化软件,并为虚拟机运行提供环境的物理机器。

  3.1.11 电源使用效率 Power Usage Effectiveness 数据中心消耗的所有能源与IT负载使用的能源之比,简称PUE。

  3.2 缩略语

  ACL 访问控制列表(Access Control List)

  APU 辅助(或备用)电源设备(Auxiliary Power Units)

  ATS 自动转换开关(Automatic Transfer Switch)

  CMDB 配置管理数据库(Configuration Management Database)

  CPU 中央处理器(Central Processing Unit)

  HBA 主机总线适配器(Host Bus Adapter)

  IO 输入/输出(Input/ Output)

  IOPS 每秒进行读写(I/O)操作的次数(Input/ Output Operations Per Second)

  IP 互联网协议(Internet Protocol)

  LED 发光二极管(Light Emitting Diode)

  PUE 电源使用效率(Power Usage Effectiveness )

  QOS 服务质量(Quality Of Services)

  RAID 廉价冗余磁盘阵列(Redundant Arrays of Inexpensive Disks)

  SAN 存储区域网络(Storage Area Network)

  SLA 服务级别协议(Service Level Agreement)

  SOW 工作说明书(Statement Of Work)

  UPS 不间断电源(Uninterrupted Power Supply)

  VDC 虚拟设备上下文(Virtual Device Context)

  VLAN 虚拟局域网(Virtual Local Area Network)

  VPC 虚拟端口通道(Virtual Port Channel)

  VPN 虚拟专用网(Virtual Private Network)

  VRF 虚拟路由转发(Virtual Routing and Forwarding)

  VSS 虚拟交换系统(Virtual Switching System)

  VSwitch 虚拟交换机(Virtual Switch)

  4 服务对象与交付内容

  4.1 服务对象与交付内容的对应关系

  4.2 服务对象 根据数据中心的特点,数据中心的服务对象分为机房基础设施、物理资源、虚拟资源、平台资源、应用资源 和数据六类。这六类对象的集合构成应用系统:

  a) 机房基础设施:指确保机房环境满足计算机相关设备正常运行要求的各类设施,包括机房电力 系统 (供配电系统、UPS系统、发电机系统)、空调系统(精密空调系统、新风系统)、安防系统(防雷接地系统、 消防系统、视频监控系统、门禁系统)、综合布线系统等;

  b) 物理资源(网络及网络设备、服务器设备、存储设备)

  1) 网络及网络设备:指保持数据中心内部各系统之间、数据中心与外部系统连接的网络及网络设备,包括内 部局域网、外部广域网、互联网、网络线路(包括专线、拨号网络、VPN)和网络设备(包括路由器、交换机、防火墙、入侵检测、负载均衡、语音以及通信传输设备等);

  2) 服务器设备:实现各种计算服务的硬件设备,包含PC服务器、小型机和主机等;

  3) 存储设备:实现数据存放的各种存储设备,包括磁盘阵列和磁带库等。

  c) 虚拟资源(虚拟网络资源池、虚拟计算资源池、虚拟存储资源池)

  1) 虚拟网络资源池:通过各种网络虚拟化技术(如:VLAN、VPN、VDC、VPC、VRF、VSwitch、VSS 等), 将数据中心内网络设备进行统一管理和调度,构成网络资源池,对业务系统需要的网络资源进行合理、灵 活的分配;

  2) 虚拟计算资源池:指通过虚拟化技术,将数据中心内计算设备进行统一管理和调度,构成计算资源池,对 需要不同计算能力的业务系统进行合理、灵活的分配;

  3) 虚拟存储资源池:通过虚拟化技术,将数据中心存储存储设备进行统一管理和调度,构成存储资源池,对 业务系统需要的存储空间容量进行合理、灵活的分配。

  d) 平台资源(操作系统、数据库、中间件等):指支持应用软件运行的系统软件,包括操作系统、 数据 库、中间件等;

  e) 应用资源:指实现用户特定需求的应用软件;

  f) 数据:指由应用软件产生、处理、并存储于数据中心的业务数据。

  4.3 交付内容

  数据中心的服务交付内容包括调研评估、例行操作、响应支持和优化改善四类,其中:

  a) 调研评估服务:根据需方、服务相关方或系统运行的需求,对服务对象的运行状况、运行环境进行现状调 研、系统分析和评估并提出相应的建议和服务方案;

  b) 例行操作服务:按照约定条件触发或预先规定的常态服务,分为监控、预防性检查和常规作业;

  1) 监控:指采用各类工具和技术,对数据中心服务对象的动态指标、静态指标、运行状况和发展趋势等进行 记录、分析和告警;

  2) 预防性检查:指为保证服务对象的持续正常运行,供方根据服务对象的监控记录、运行条件和运行状况进 行检查和趋势分析,发现其脆弱性,以便消除或改进;

  3) 常规作业:指供方对数据中心服务对象进行的日常维护,包括定期保养、配置备份、数据备份、恢复、定 期重启等活动,以保证服务对象的稳定运行。

  c) 响应支持服务:根据响应的前提不同,分为事件驱动响应、服务请求响应和应急响应;

  1) 事件驱动响应:由于不可预测原因导致服务对象整体或部分性能下降、功能丧失,触发将服务对象恢复到 正常状态的服务活动。事件驱动响应的处理过程首先应争取在最短的时间内恢复服务或启用备份资源,维持服务 的持续提供,并应对事件做出分析、明确诱发事件的原因和影响的范围,采取有效的防控措施,减少类似事件的 再次发生。事件驱动响应的触发条件包括外部事件、系统事件和安全事件三种;

  2) 服务请求响应:由于需方提出各类服务请求,引发的需要针对服务对象、服务等级做出调整或修改的响应 型服务。服务请求响应需要根据总体服务策略并参考已有的SLA/ SOW做出判断,对服务的实施进行影响评估, 制定详细的实施方案和回退措施,并在条件允许的情况下执行实施方案和回退方案的测试。变更型响应服务实施 完成后,应进行总结,确认已达到预期的目标。此类响应可能涉及服务等级变更、服务范围变更、技术资源变 更、服务提供方式变更等;

  3) 应急响应:指在数据中心出现跨越预定的应急响应阈值的重大事件、发生重大自然灾害、由于政府部门发 出行政指令或需方提出要求时,应当启动应急处理程序。应急响应的服务实施及相关要求见SJ/T XXXXX.3。

  d) 优化改善服务:包括适应性改进、增强性改进和预防性改进三种类型;

  1) 适应性改进:为保持数据中心服务对象在已变化或正在变化的环境中可持续运行而实施的改造;

  2) 增强性改进:根据数据中心的运行需求或由于服务对象的缺陷,采取相应改进措施增强数据中心的安全 性、可用性和可靠性;

  3) 预防性改进:检测和纠正数据中心服务对象运行过程中潜在的问题或缺陷,以降低系统风险,满足数据中 心未来可靠运行的需求。

  5 运行维护服务基本策略

  5.1 总则

  为保证数据中心的业务连续性和信息安全性,应制定有效的运行维护策略来保证服务交付的质量,兼顾运行 维护过程(及时和规范)和运行维护结果(可用和安全),实现“事前防范,风险前移;事中控制,快速响应; 事后改进,持续评估”的持续改进原则。

  5.2 可用性

  供方应采取适当措施,确保按服务协议提供长期、持续的满足需求的优质服务,保持服务对象符合SLA的可 用性要求。包括:

  a) 供方在服务实施时,应建立相关的作业流程和响应机制,必要时按需方要求制定系统冗余和备份规范,以 满足需方对可用性的要求;

  b) 进行合理的人员岗位设置和职责定义,应保证专人专岗并设置人员备份;

  c) 应配备具有相应能力的人员和必要的工具,并定期进行专业培训,以提高服务可用性。人员能力具体要求 见附录A;

  d) 应选择适用的运行维护技术,以保证服务的可用性;

  e) 根据运行维护服务级别要求,必要时应建立体系架构的关键健康检查点,并配备相应的运行维护工具,以 保证服务水平。运行维护工具等级见附录B;

  f) 供方应根据服务要求配备足够的资源,避免由于资源的缺失导致对服务的可用性带来影响。

  5.3 安全性

  服务的供、需双方应采取各种安全手段或措施,有效控制数据中心运行维护服务的各个环节,保护数据中心 运行维护服务中的物理安全、网络安全、系统安全、应用安全和数据安全。包括:

  a) 建立适当的信息安全管理机制,以规范数据中心运行维护服务人员的信息安全行为。信息安全管理可参照 GB/T 22080、GB/T 22081等标准的有关规定执行;

  b) 应对数据中心运行维护服务人员采取有效的信息安全管理措施,如进行人员背景调查、签订安全保密协议 等;

  c) 应对数据中心运行维护服务人员进行相关安全管理及安全要求培训,并进行适当的检查,以确保服务人员 了解并遵守数据中心安全、保密相关规定;

  d) 应充分关注数据中心业务安全需求,结合信息安全技术与管理标准,进行适当的安全评估,提供相应的安 全建议,并对服务对象进行适当的监控和保护;

  e) 应对数据中心安全进行监控、分析,把安全风险控制在可接受范围内,防止安全事件发生;

  f) 应建立有效的安全通报机制,以及时通报安全事件相关情况和相应防范处理措施等。

  5.4 及时性

  供方应采取适当的手段确保提供满足SLA时间指标要求的运行维护服务。包括:

  a) 对事件、问题、变更建立明确的分级策略,并与服务窗口时间、响应时间等指标相匹配;b) 建立可确保满足需方要求的沟通联络机制,保持沟通渠道通畅,以实现对服务需求的及时响应;

  c) 建立有效的服务资源调度机制及与服务相关方的协同机制,配置必要的备品备件,以提供及时的服务保 障;

  d) 特殊时间段(如法定节假日或重大事件等),应提升响应级别,提供必要的现场支持;

  e) 建立有效机制,周期性对事件级别定义进行更新,以确保定义准确有效。

  5.5 规范性

  供方应建立适当的服务管理流程、服务活动指导文件或实施规则,以保证服务过程的规范运作。包括:

  a) 建立有效的服务管理流程文件,以保证服务过程实施规范性;

  b) 建立或遵循需方的数据中心相关管理制度,如出入场管理制度、安保控制制度等;

  c) 对于例行操作服务,应制定详细、可操作的技术手册,以降低操作风险;

  d) 对于非例行操作服务(响应支持、优化改善、调研评估),应在实施前,制定详细的实施方案,并进行风 险评估及分析,采取相应的风险规避措施和回退手段;

  e) 在服务过程中进行的任何活动,应建立服务档案,可形成服务报告(见附录C),保留完整的服务记录。

  6 运行维护交付内容

  6.1 机房基础设施

  6.1.1 服务对象

  服务对象包括空调系统(精密空调系统、新风系统)、电力系统(供配电系统、UPS系统、发电机系统)、 安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统)以及综合布线系统。

  6.1.2 调研评估

  机房基础设施调研评估服务内容包含但不限于:

  a) 空调系统(精密空调系统、新风系统):机房环境指标分析及改进建议、机房热点分析及布置改进建议、 机房送风、回风方式改进建议,新风风量、风压指标分析及改进建议;辅助制冷单元配置建议等;

  b) 电力系统(供配电系统、UPS系统、发电机系统):机柜供电分析及改进建议、机房回路调整分析调整建 议、机房扩容建议等;发电机负荷分析及调整建议等;UPS运行分析及扩容建议,超过设计使用寿命的电池更换 建议、整流直流电容、逆变交流电容等;

  c) 安防系统(防雷接地系统、消防系统、视频监控系统和门禁系统):防雷接地系统分析及改进建议、消防 系统现状分析和改进建议(按照当地消防管理部门管理要求)、视频监控系统的分析和改进建议、门禁系统的分 析和改进建议等;

  d) 综合布线系统等:光纤、铜缆容量、使用效率分析;应用环境及性能分析;数量、路由改进或扩容建议; 级别提升建议等。

  e) 机房电源使用效率:通过对机房PUE连续监测分析,提供机房能效改进建议,包括但不限于:空调系统优 化(消除机房热点、冷热通道遏制、改善送回风、使用节能型设备等)、电力系统优化(回路优化、使用节能型 设备等)、实施容量管理(对机柜的电力容量、制冷容量及空间容量进行统筹管理,以充分利用资源)等。

  6.1.3 例行操作 机房基础设施的例行操作服务包括:监控、预防性检查、常规作业。

  6.1.3.1 监控

  对机房基础设施的监控

  6.1.3.2 预防性检查

  应在监控服务的基础上对机房基础设施进行预防性检查。包括:性能检查和脆弱性检查。

  6.1.3.3 常规作业

  机房基础设施的常规作业包括基础类操作、测试类操作和数据类操作,其中:

  a) 基础类操作:按服务管理手册的有关规定,执行设备的日常运行、维护和保养;

  b) 测试类操作:按服务管理手册的有关规定,对机房基础设施各系统功能、性能进行测试;

  c) 数据类操作:按事先规定的程序,对机房基础设施运行日志、记录等数据进行操作。

  6.1.4 响应支持

  6.1.4.1 事件驱动响应

  针对设备的软、硬件故障引起的业务中断或运行效率无法满足正常运行要求,而进行的响应服务,包括但不 限于:

  a) 空调系统:故障排查、关闭部分机组以维持机房最低温湿度指标、关闭新风系统等;

  b) 电力系统:配电系统包括故障排查、投入备用电源回路、关闭非重要回路等;发电机系统包括故障排查、 启动发电机、油料补充等;UPS系统包括故障排查、旁路系统、关闭非重要输出等;

  c) 安防系统:防雷接地系统包括浪涌保护器复原、更换,接地电阻降阻等;消防系统包括故障排查、系统启 动、报警联动、疏散警示等;视频监控系统包括故障排查、监控头或硬盘更换、检查告警、数据恢复等;门禁系 统包括故障排查、手动开启或关闭门禁系统、检查告警或监控记录等;

  d) 综合布线系统:线缆更换等。

  6.1.4.2 服务请求响应

  根据应用系统运行需要或需方、服务相关方的请求,而进行的响应服务,包括但不限于:

  a) 空调系统:调整温度、湿度参数等,调整新风量等;

  b) 电力系统:配电系统包括增减回路、增减供电类型(如直流、110V)等;分支回路相位调整等;发电机 为指定负载供电等;UPS系统包括旁路操作、为指定负载供电等;

  c) 安防系统:防雷接地系统包括新设备接地等;消防系统包括增减终端设备、检查及提供告警及监控记录、 备份或清除记录等;视频监控系统包括调整摄像机位置、增加摄像机,增加录像机容量等;门禁系统包括增加、 删减、变更门禁权限等;

  d) 综合布线系统:链路跳接、跳线更换,布线扩容等。

  6.1.5 优化改善

  6.1.5.1 适应性改进

  根据应用系统特点和运行需求,对机房基础设施进行调整,包括但不限于:

  a) 空调系统:调整温湿度参数等、调整机组位置、增减新风风量等;

  b) 电力系统:配电系统包括更换开关、导线以适配负载容量等,发电机包括调整启动方式等;

  c) 安防系统:调整防雷接地系统、消防系统、视频监控系统和门禁系统,以适应应用系统的变化;

  d) 综合布线系统:调整综合布线系统,以适应应用系统的变化。

  6.1.5.2 增强性改进

  根据应用系统的特点和运行需求,通过对机房基础设施的运行记录、趋势的分析,对机房基础设施进行调 整、扩容或升级,包括但不限于:

  a) 空调系统:增减精密空调机组、增减APU单元,增加新风机组、预处理装置等;

  b) 电力系统:配电系统包括增加回路、增加ATS设备等;UPS系统包括增加主机数量、增加电池数量等;

  c) 安防系统:防雷接地系统包括增加冗余引下线、接地装置,降低接地电阻阻值等;消防系统

分享:
返回上一级
关注卓越空间

关注卓越空间

关注卓越微博

关注卓越微博

关注卓越微信

关注卓越微信

公司地址:北京市通州区砖厂北里154号金隅创客+905室  邮编:101121 电话:全国:010-56542716
天津:022-27810977  传真:010-56542750  京ICP备12042316号-1
市场部:zhuoyue9001@sina.com 网站运营部:zhuoyuetmz@163.com提供iso认证,质量体系认证,售后服务认证,信息安全认证,业务连续性认证,食品安全体系认证服务!