深圳壹星合奕科技有限公司

解决方案

2021-12-02

数据中心硬件自动化运维管理

分享到:

          近年来,随着大量应用云计算、大数据、容器等新技术,IT架构由传统架构转变成私有云、docker、微服务等的混合架构,x86物理服务器的数量呈爆发式增长。人均管理设备从过去的几十台,发展至现在的几百台。传统的人力管理方式,已经无法适应大规模集群管理架构。因此带来诸多管理上的难题,如:

    1.装机难

     在混合架构下,私有云平台在虚拟化管理部分已经很成熟了,可以自助创建虚拟机、管理电源状态、自动化部署操作系统等。但是物理机还是采用传统的人工装机方式,不仅效率低下,而且由于人工装机缺乏规范性,服务器安装存在不符合安全规范风险。另外传统的物理服务器管理模式,不具备云资源的弹性架构,无法实现按需申请、灵活使用的特性,不能满足科技驱动业务发展和创新的需求。

    2.巡检难

在业务监控、应用监控和系统监控三个层面有比较完善的监控手段,但是在底层的物理层还是依赖管理员每天去机房人工巡检。主要存在以下问题:

  3.异地机房管理难

    在有多个异地托管数据中心,需要批量开机/关机操作,需要人工进行操作,任务繁琐。人员无法进出托管机房,一旦设备发生故障,也无法及时处理。数据中心硬件问题,主要还是通过现场运维方式解决,缺乏有效、统一的远程管理手段。

   4.资产难

    随云计算、大数据、容器等新技术的发展,设备增加所带来的资产管理工作量也在不断增加数据中心维护工作的成本,同时导致了一系列难以有效解决的问题,主要的问题如下:

     带外管理的发展趋势

   服务器硬件管理可分为带外管理和带内管理两种管理模式。

    1.带内管理

     带内管理,即监控管理信息与生产数据信息使用同一物理通道进行传送,主要是依赖于生产环境,如操作系统,所提供的接口、驱动来获取底层硬件的状态(正常/故障)信息,从而实现监测。

      带内管理复用现有生产网络,在每台服务器的系统层安装Agent,然后将硬件监控信息通过SNMP系统服务发送给带内集中监控平台。

    传统的带内监控及现场维护存在以下问题:

2.带外管理

          带外管理,主要是通过专门的网管通道实现对硬件设备状态数据的获取,与生产业务网络相隔离,其核心原理在于通过不同的物理通道传送管理数据和生产数据,两者互相独立,互不影响。

        带外管理技术原理:带外管理使用了IPMI协议,通过基板管理控制器 (BMC)进行交流,通过在设备内部的传感器对硬件进行智能管理。无需通过操作系统进行管理,允许进行带外服务器管理,生产网络也无需负担硬件状态监控数据的传输任务。用户可以利用IPMI监视服务器的物理状态数据,如温度、电压、风扇工作状态、电源供应以及机箱入侵等数据。带外管理最大的优势在于它是独立于计算芯片CPU、主板IO控制系统BIOS和操作系统,可以实现在开/关机状态下,接通电源就即可以对服务器的监控管理。

     带外管理可实现的功能: 通过服务器BMC网口连接的物理网线,可实现远程管理、控制服务器。可实现的远程管理功能如下:

3.带内监控与带外监控对比

以带外管理技术为核心构建数据中心硬件自动化运维

     经过多年的数据中心建设,申万宏源现有数据中心已经建设了带外管理网络。日趋完善的带外管理网络,我们利用其技术优势,建设一整套完整的底层硬件自动化运维架构,涵盖硬件使用的全生命周期,包括裸金属服务器自动化部署、数据中心自动化巡检、统一vKVM远程管理、智能资产追踪管理。以此摆脱繁重的人工干预操作,让硬件运维工作标准化、流程化、自动化,初步实现数据中心硬件的自动化运维。

1.裸金属服务器自动化部署

         云主机服务器主要分为虚拟服务器和裸金属物理服务器两类。但证券数据中心还存在大量的对性能延迟和密集I/O敏感的业务、工作负载、高安全性要求等裸金属物理服务器应用场景,如:核心交易场景、核心数据库场景、大数据场景、安全性要求和云基础设施部署场景。

      因此,人工装机模式已经不能满足业务发展和创新的需求,且不符合大型数据中心IT运维自动化的趋势。需要通过自动化部署方式,将裸金属物理服务器池化,实现像虚拟服务器一样快速、批量、高标准的部署上线。目前针对裸服务器的自动化部署技术有传统的PXE技术和带外技术两种。

     传统方式下,采用PXE技术实现裸金属物理服务器自动化部署。以Openstack Ironic为代表的云平台采取的是基于传统PXE的裸金属云技术。Ironic的功能实现,主要依赖PXE技术实现批量部署和IPMI系统控制,因此大部分的服务器都可以通过Ironic进行系统安装和状态管理。对于部分服务器,Ironic支持可插拔的架构,可以自主开发服务器支持的驱动。通过Ironic组件,OpenStack对物理机的部署,可以和虚拟机部署一样简单,可以实现物理机操作系统安装,上下电,资源发现等操作。基于传统PXE的裸金属云技术的不足:

     PXE协议部署操作系统,需要通过DHCP功能获取裸金属资源IP地址。DHCP容易在网络环境中产生“广播风暴”。证券生产环境中使用DHCP功能是不符合安全规范的,导致无法PXE裸金属技术无法在生产环境落地;

      以Openstack Ironic为代表的云平台无法全面支持设备BIOS配置、RAID配置、固件基线管理(阵列卡、万兆网卡、HBA卡、SSD卡)、压力测试等功能。

        在带外管理方式下,不依赖服务器的业务网口,无需网络启用DHCP服务。带外管理使用了IPMI(智能平台管理接口)协议,该协议是一种开放标准的硬件管理接口协议,定义了嵌入式管理子系统进行通信的特定方法。用户可以利用服务器管理卡实现BIOS配置、RAID配置、固件升级、远程电源控制等核心功能。IPMI最大的优势在于它是独立于计算芯片CPU、主板IO控制系统BIOS和操作系统,所以无论在开机还是关机的状态下,只要接通电源就可以实现对服务器的配置部署。带外管理方式无需网络启用DHCP服务,网络方案更为安全,同时支持更多硬件选项配置。相较于传统PXE方式,带外管理方式更具技术、安全优势,我司选择了带外管理技术方案进行X86服务器自动化部署建设。

(1)裸金属服务器自动化部署

           通过带外自动化部署平台实现裸金属资源自动化管理以及配置流程自动化。新采购的裸金属资源通过以下初始化流程,自动化加入裸金属资源池:

       当发起资源申请之后,通过一系列步骤,将在云新装机平台启动裸金属资源自动部署流程,整个流程如下:

(1)裸金属服务器部署规范化

         结合我司多年的裸金属资源管理经验累积,对裸金属资源的固件版本、BIOS配置、Raid配置、OS配置、补丁管理形成了初步的部署规范,通过云新装机平台在装机之前,进行模板校验,以及装机之后的基线检查,实现裸金属资源配置规范化。

       裸金属资源固件版本管理:通过云新装机平台定期更新维护服务器阵列卡、万兆网卡、HBA卡、SSD卡的固件版本基线。

 

      BIOS基线:根据不同业务场景,支持用户自定义BIOS基线,如:在某些大数据应用场景下,由于分布式存储等本身的数据冗余架构,所有数据盘要开启JBOD模式,以此提升使用容量。在某些品牌的裸金属资源上使用VMware,需要开启Mwait特性,否则将导致VMWare启用EVC特性报错。

     Raid卡基线:根据不同的应用场景,创建了多个不同的Raid模板,用户可以通过云管平台预先根据需求选择合适的Raid模板。以此实现Raid配置的标准化。

       OS、补丁、安全基线:通过云新装机平台,我司对补丁进行增加、更新和删除,定期对存量补丁进行自动更新。周期性的管理HBA管理软件、安全基线、防病毒软件版本。

2.数据中心自动化巡检

        采用人工巡检方式与设备厂商提供的带外管理平台相结合的方式进行数据中心巡检。人工巡检每日巡检两次,通过进入机房检查设备状态灯,发现并上报设备故障。日常巡检工作效率低下,工作繁重,且时有漏报、误报事故发生。因此采用厂商自带的带外管理平台来进行辅助,提升故障发现率。

        通过多年的数据中心建设,现有数据中心的设备类型、品牌、型号日益增加,厂商的带外管理平台也逐年增加。运维管理硬件设备的同时,还需要维护多套运维管理软件。由于平台过多,导致没有统一的硬件监控、管理、告警平台,管理复杂度不断提升,且维护难度增大。

        通过建设跨厂商、跨硬件平台的统一带外监测平台,实现实时高效主动的监控这些硬件设备的工作状态,当硬件设备出现故障时能及时发现、实时告警。平台从各厂商提供的带外管理接口,获取硬件设备状态数据。状态数据直接来自于设备自身硬件层传感器,监控数据直接、全面。将日常设备监控轮询周期从人工巡检的一天两次,提升至分钟级,大幅提升巡检密度,提升故障发现率,还能有效进行故障诊断。

         平台可以从资源、机房、业务、设备等多种不同的视图监控数据中心的各种资源。不同视图下,可以随时查看实时的设备的健康状态、性能状态,可以用列表以及多种图标形式更加自动化的直观展现。当设备出现异常状态时,可以通过多种形式(包括邮件、短信、微信等)同步触发告警。平台实行多级告警制度,根据告警的严重性分成不同等级。对于部分严重警告,可以设置告警升级规则,将告警自动化上报高层,实现问题的自动化升级。为了避免出现单一故障(如异常关机)导致的与CPU、内存、电源等同时报警,平台对告警进行自动化的收敛,减少批量告警所带来的不必要的恐慌。通过这种方式,实现百分之百的硬件状态查看。

         传统方式下人工巡检发现故障,再安排售后工程师上门诊断故障、带备件上门进行故障修复,整个故障恢复时间周期较长,平均恢复时间以天为单位计算。通过统一带外监测平台触发的硬件故障告警,告警信息中包含告警数据、诊断数据、故障部件序列号、故障部件型号、维保信息等相关信息。整个故障发现、诊断过程无人为干预,全智能化诊断故障。大大压缩故障发现、诊断时间,运维人员直接带备件上门快速恢复故障。通过这种方式,平均故障恢复时间降至6-7小时,减少设备故障带来的业务宕机风险。

3.统一vKVM远程管理

         带外管理功能可以支持实现远程访问、远程开关机的远程管理功能。各厂商X86服务器自带的管理平台,如HP iLO,IBM IMM等,都包含vKVM远程访问功能。不同品牌,不同的型号的vKVM功能需要不同版本的JAVA运行环境支持。目前,服务器硬件级日常处理(需要带外功能的)从定位到查表到登入,少则5-10分钟,多则更久,这对于核心业务处理来讲几乎是灾难。

        通过建设统一带外管理vKVM访问平台,对各品牌X86服务器vKVM进行集中式访问,统一认证vKVM访问方式。只需一次认证用户身份及操作权限,即可登录统一vKVM平台,直接访问设备vKVM,进行操作。无需为每台设备单独验证,无需切换JAVA运行环境,统一安全认证,审计用户行为,快速登录、切换各服务器vKVM。还可以实现执行批量开机、关机任务,解决开市/休市期间批量操作效率问题。

4.智能资产配置追踪

       设备资产管理一直是一个较为棘手的问题,不同的资产管理架构,多次的人工数据整理、录入,资产数据维护不及时,导致数据失真、僵化。每年年底的资产盘点,都需要耗费大量的人力、物力去机房现场对设备进行清点。数据中心设备与资产统计数据存在大量账实不符的情况。申万宏源通过统一带外管理平台,精细化管理资产数据:

结论

    通过统一带外管理平台建设,实现对不同品牌设备的统一监控管理,为生产系统的安全、平稳运行提供有力保障:

1.提升业务上线效率

     通过无人安装值守系统安装,实现了裸金属物理服务器的弹性、快速按需供应,让裸金属物力资源和云资源一样灵活、高效。

2.保障业务运行,加快企业IT发展

      实时对不同品牌服务器的硬件状态统一监控管理。提高系统可用性和业务效率。故障发现周期缩短了95%,更快速、更准确的为设备和业务的可靠运行提供保障。依靠统一带外管理平台,实现主动的对各个品牌服务器的预警、报警、响应等全程全天候自动化监管功能,避免人为因素造成的失误和风险。缩短故障发现周期,降低业务风险,预先解决问题。扫除硬件监控的盲区,减少人工巡检的弊端。更简单、更快速的故障点定位。有助于减少IT员工在维护活动上花费的时间,从而大大提高工作效率。

3.降低运营成本

       采用统一vKVM访问技术,协助管理人员实现对异地服务器管理,包括:批量开关机、操作系统快速部署、可以进行远程诊断、ROM升级、配置和系统维护,无需赶到现场。提升了异地数据中心运营效率的同时,降低了运营成本。

4.控制IT风险、为云计算实施提供最强大的基础

        帮助快速发现、解决问题。积极推动由响应式服务向预防式服务的转变。为技术人员和管理层提供权威数据。通过自动、准确的监管平台,有助于减少故障排除和解决问题所花费的时间。

5.简化了系统维护人员的日常操作的工作量,降低了系统维护的复杂度

       通过将不同品牌的服务器纳入统一带外管理监控范围,用户可通过集中式管理界面,真正监管日常设备运行,接收设备硬件级别的预警及报警、及时解决问题。使IT监管工作建立在统一科学的管理标准之上、扩大IT监管人员的支持范围(例如一名系统管理员可管理更多服务器),从而大大提高IT监管能力。

上一篇:计算虚拟化
下一篇:大数据产品