服务器管理标准发展和趋势(一)
智能平台管理接口IPMI
刘正伟
上网冲浪是目前人们生活中不可缺少的一部分。然而,支持网站每秒处理数万甚至数十万次点击所需要的网络服务器数量很大,数据中心的管理与维护成本不断升高。 另一方面,企业应用系统对服务器管理的要求却越来越严,甚至特别苛刻,造成管理成本上升。新经济时代企业面临的一个主要问题是:既要保证应用系统不间断运行,又要不断降低运行成本。谁能更好地控制网络管理成本,谁就有可能在竞争中站在前列。
IPMI标准之诞生 智能平台管理接口(IPMI:Intelligent Platform Management Interface)是一项应用于服务器管理系统设计的标准,由Intel、HP、Dell和NEC公司于1998年共同提出,当前{zx1}版本为2.0。利用此接口标准设计有助于在不同服务器系统硬件上实施系统管理,使不同平台的集中管理成为可能。 按照四家公司的定义,IPMI是使硬件管理具备“智能化”的新一代通用界面标准。用户可以利用IPMI监视服务器的物理健康特征,如温度、电压、电扇工作状态、电源供应以及机箱入侵等,为系统管理、恢复以及资产管理提供信息。 IPMI规范包括了通过串行口、调制解调器以及局域网远程控制网络服务器和进行系统管理的能力。即使在服务器未开电源的情况下,管理员也能远距离拨号进入 IPMI系统,查询服务器系统的健康状况,进行重开机或重关机,或重新配置以及恢复系统。另外系统也可以自动地通过电话或者局域网向服务器管理员发出警报信息,这样网络管理人员便可以随时随地在{dy}时间了解整个网络系统的物理健康状况,以采取积极的应对措施。基于IPMI技术的下一代网络管理技术将最终实现服务器的异地集中管理。 IPMI技术三大优点: {dy},IPMI把系统管理软件从系统的硬件平台管理任务中分离出来,并且把底层的服务器管理功能与高层软件分开。这样,推出一个通用的、跨系统的平台管理监控软件就成为可能;第二,IPMI是可扩展的,并且能够快速简单地在其上附加新功能,如增加更多的传感器、管理控制器或特定的配件设备;第三,在加入IPMI技术的系统里,CPU只需要与IPMI就事件进行通信,形成IPMI事件记录(Event Log)。在系统上的每个设备直接通过IPMI与事件记录文件通信,而事件记录文件以统一的方法为每个特定的设备记录所有的事件状态。这一特点进一步简化了代理(Agent)的处理任务,提高了系统的整体运行性能。 IPMI标准之实现 IPMI的实现主要通过硬件和软件两部分来实现。IPMI 技术的“智能化”来自于一个管理微控制器。在一个主机系统里,这个控制器被称为底板管理控制器(BMC,Baseboard Management Controller),图1为整个IPMI硬件架构的示意图。BMC自备电源,并自动地监控系统健康状况。如果发现任何被控单元异常, 它能立即采取行动,例如记录事件、报警、自动关机或重启动。与 BMC 相关联的是一组无源存储器,用来存储传感器的数据 (Sensor Data Records, SDR)、系统事件记录文件,以及一些单元信息,如序列号和部件号信息等。IPMI 通过指定通用、精简、基于消息的接口,将信息传输到管理微控制器,实现软件与硬件信息的分离。
图1 IPMI硬件架构示意图
IPMI的硬件底层实现以及上层应用的管理都需求一些软件来支持,如图2所示IPMI软件实现,以下将简略描述IPMI所涉及到的软硬件种类。
图2 IPMI软件实现
我们可以看出,整个IPMI软件由BMC Firmware 、管理软件和BIOS组成。 BMC Firmware: 有别于系统上的CPU,BMC其实也是一个独立的运算单元,它必须有独立的Firmware来驱动BMC的功能,就如x86系统所需的 BIOS一样。通常BMC的Firmware必须负责BMC芯片的起始值设定、外围相关硬件的致能、IPMI标准的命令集解译及执行,以及一些独特硬件设计所需的OEM命令的增列。 管理软件: 系统管理者最常接触的就是上层的管理软件,简单的类型就是使用一般的终端机(Terminal)程序来接收从 Serial/Modem所传送过来的文字信息。近年来,除了BMC厂商会有自行开发的上层管理软件外,也有不少的软件厂商加入了开发管理软件的行列,而他们经常利用的沟通界面即为网络界面。不管是通过序列或是网络,在界面上传输的都是BMC所能辨认的IPMI信息。 BIOS (optional): 这里的叙述只适合于有类似使用BIOS的系统。在管理功能上,有时BMC无法独自完成以下工作:如事件时间的记录必须依靠BIOS来给予系统RTC的值,经由BIOS来修改网络的IP设定值,经由BIOS告知目前系统的POST状态,BIOS提供DMI(Desktop Management Interface)中的IPMI架构的信息给上层管理软件,以及由BIOS的设定来避免BMC上的Watchdog Timer timeout等。BMC对BIOS的依靠程度必须依据系统设计的复杂度而定。 IPMI标准之应用 先让我们来看一个IPMI设计的应用实例:一家公司购置了若干台服务器,计划安装不同应用系统,分别应用于数据库、网络、打印服务器等。传统实现方式是分别由在某一应用系统有专长的不同系统管理员逐一完成安装、配置及后期维护管理,但利用IPMI管理即可实现统一的管理。以下从监控管理、故障诊断两方面来领略一下IPMI带来的优势。 传统的系统监控管理方法一般是系统管理员定期到机房巡视或者采用远程桌面之类软件进行监控,这种方法存在时效性差、服务器宕机后无法追查原因、占用系统资源较多的缺点。IPMI则可实现对服务器系统的实时监控,能够监控网络状态(发现整个网络节点、判断网络节点的在线状态、判断网络的通断、监测网络结点的OS、IP、主机名、网络流量大小等信息);监控服务器系统静态信息(CPU、内存、硬盘、光驱、网卡、显卡、操作系统、RAID卡、PCI附加卡等信息)和动态信息(主板、CPU、SCSI 模块、风扇板等设备的温度、电压、风扇转速信息以及CPU利用率、内存利用率、硬盘I/O访问流量等系统资源信息),还可以实现对RAID数组的管理。当上述被监控量发生超越门限等异常事件时,监控软件会通过多种形式(消息框、邮件、告警音、短信)告警,同时将告警事件记录入日志,方便管理员根据告警日志分析诊断。这种方法对大量分散服务器集中管理的环境应用优势尤为明显。 传统的故障诊断一般是管理员到故障现场根据经验诊断故障原因,而利用IPMI,管理员可以通过网络或者串口访问远程服务器,通过获取事件日志和传感器数据记录来分析、确认故障原因,并通过远程操作来实现服务器恢复。 浪潮服务器应用IPMI 在IPMI标准诞生之日起,浪潮就一直关注和推进这项标准的应用,在产品研发中不断更新,从IPMI1.5标准到2.0标准,一直为简化服务器管理,提高服务器易用性不懈努力。浪潮提供的睿捷服务器管理软件V4.0全面支持IPMI2.0标准,为用户提供了一个完整、全面的解决方案。 (未完待续)