第2章 计算机网络管理的体系结构
网络管理就是指监视和控制一个复杂的计算机网络,以确保其尽可能长时间地正常运行,或当网络出现故障时尽可能快地发现故障和修复故障,使之最大限度地发挥其应有的效益的过程。也就是说,网络管理包括网络的监视和控制两个方面。因此网络管理系统的重要任务就是:收集网络中各种设备和系统的工作参数,运行状态信息;处理收集到的各种信息,并以各种各样的、可视化的方式呈现给网络管理人员;接收网络管理人员的指令或根据对上述信息的处理结果向网络中的设备发出控制指令,即实施网络控制功能,同时监视指令执行的结果;保证网络设备按照网络管理系统的要求工作。在设计网络管理系统时,主要应考虑网络的组成部件和结构,各部件之间的关系,网络管理应该包括的功能及这些功能如何划分等内容。
2.1 计算机网络管理的模型结构
在网络管理中,一般采用的是网络管理者——网管代理模型,如图2-1所示。网络管理模型的核心是一对相互通信的系统管理实体。网管代理模型采用一个独特的方式使两个管理进程,即管理进程与一个远程系统相互作用,来实现对远程资源的控制。在这种简单的体系结构中,一个系统中的管理进程担当管理者角色,而另一个远程系统中的对等实体担当代理者角色,代理者负责提供对被管对象的访问。前者被称为网络管理者,后者被称为网管代理。不论是OSI的网络管理,还是IETF的网络管理,都认为现代计算机网络管理系统基本上由以下4个要素组成。
(1)网络管理者(Network Manager)。
(2)网管代理(Managed Agent)。
(3)网络管理协议NMP(Network Management Protocol)。
(4)管理信息库MIB(Management Information Base)。
图2-1 网络管理的基本模型
2.1.1 网络管理者
网络管理者是指实施网络管理的处理实体,网络管理者驻留在管理工作站上。管理工作站通常是指那些工作站、微机等,它们一般位于网络系统的主干或接近于主干的位置,负责发出管理操作的指令,并接收来自网管代理的信息。网络管理者要求网管代理定期收集重要的设备信息。网络管理者应该定期查询网管代理收集到的有关主机运行状态、配置及性能数据等信息,这些信息将被用来确定独立的网络设备、部分网络或整个网络运行的状态是否正常。
网络管理者和网管代理通过交换管理信息来进行工作,信息分别驻留在被管设备和管理工作站上的管理信息库中。这种信息交换是通过一种网络管理协议来实现的,其具体的交换过程是通过协议数据单元PDU(Protocol Data Unit)进行的。通常是管理站向网管代理发送请求PDU,网管代理响应PDU回答,而管理信息就包含在PDU参数中。在有些情况下,网管代理也可以向管理站发送消息,这种消息叫做事件报告或通知,管理站可根据报告的内容决定是否做出回答。
管理工作站为网络管理员与网络管理系统的接口。它的基本构成如下。
(1)一组具有分析数据、发现故障等功能的管理程序。
(2)一个用于网络管理员监控网络的接口。
(3)将网络管理员的要求转变为对远程网络元素的实际监控的能力。
(4)一个从所有被管网络实体的MIB中抽取信息的数据库。
2.1.2 网管代理
网管代理是一个软件模块,它驻留在被管设备上。这里的设备可以是工作站、网络打印机,也可以是其他网络设备。通常将主机和网络互连设备等所有被管理的网络设备称为被管设备。网管代理的功能是把来自网络管理者的命令或信息的请求转换成本设备特有的指令,完成网络管理者的指示或把所在设备的信息返回到网络管理者,这些信息包括有关运行状态、设备特性、系统配置和其他相关信息。另外,网管代理可以将自身系统中发生的事件主动通知给网络管理者。
网管代理就像是每个被管理设备的信息经纪人,它们完成网络管理者布置的信息收集任务。网管代理实际所起的作用就是充当网络管理者与网管代理所驻留的设备之间的信息中介。网管代理通过控制设备的管理信息库(MIB)中的信息来实现管理网络设备的功能。
在系统管理模型中,管理者角色与网管代理角色不是固定的,而是由每次通信的性质所决定的。担当管理者角色的进程负责向担当网管代理角色的进程发出操作请求,而担当网管代理角色的进程则负责对被管对象进行操作和将被管对象发出的通报传向管理者。
2.1.3 网络管理协议
网络管理者和网管代理者之间通过网络管理协议通信,网络管理者通过网络管理协议来完成网络管理。网络管理协议定义了网络管理者与网管代理间的通信办法,规定了管理信息库的存储结构、信息库中关键词的含义及各种事件的处理方法。目前,最广为人知的网络管理协议标准当属Internet的简单网络管理协议(SNMP)和ISO/OSI的公共管理信息服务和公共管理信息协议(CMIS/CMIP),它们代表了目前的两大网络管理解决方案。其中SNMP流传最广,应用最多,获得支持也最广泛;而CMIS/CMIP虽说是一种高级的网络管理协议和工具,但由于其协议和实现上的复杂性限制了它的使用。下面将以SNMP为例来解释网络管理协议。
SNMP作为应用层协议,是TCP/IP协议簇的一部分。SNMP在UDP、IP及有关的特殊网络协议(如Ethernet,FDDI,X.25)之上实现。SNMP通过用户数据报协议(UDP)来操作,所以要求每个网管代理也必须能够识别SNMP、UDP和IP。在管理站中,网络管理者在SNMP协议的控制下对MIB进行访问,并发布控制指令。在被管对象中,网管代理在SNMP协议的控制下,负责解释SNMP消息和控制MIB指令。
SNMP通信协议主要包括以下功能。
(1)get管理站读取网管代理者处对象的值。
(2)set管理站设置网管代理者处对象的值。
(3)trap网管代理者向管理站通报重要事件。MIB为设在网管代理处的管理站访问点的集合,管理站通过读取MIB中对象的值来进行网络监控。管理站可以在网管代理处产生动作。
2.1.4 管理信息库
管理信息库(MIB)是一个信息存储库,它是网络管理系统中的一个非常重要的部分。
管理信息库(MIB)是被管对象结构化组织的一种抽象,它是一个概念上的数据库,由管理对象组成。各个网管代理管理MIB中属于本地的管理对象,各网管代理控制的管理对象共同构成全网的管理信息库。
MIB为设在网管代理者处的管理站访问点的集合,管理站通过读取MIB中对象的值来进行网络监控。管理站可以在网管代理处产生动作,也可以通过修改变量值来改变网管代理处的配置。
现在已经定义的有几种通用标准的MIB。在这些MIB中包括了必须在网络设备中支持的特殊对象,其中使用最广泛、最通用的是MIB-II。
在MIB中的数据可大体分为3类:感测数据、结构数据和控制数据。感测数据表示测量到的网络状态,感测数据是通过网络的监测过程获得的原始信息,包括节点队列长度、重发率、链路状态、呼叫统计等。这些数据是网络的计费管理、性能管理和故障管理的基本数据;结构数据描述的是网络的物理和逻辑构成,与感测数据不同,结构数据是静态的(变化缓慢的)网络信息,包括网络拓扑结构、交换机和中继线的配置、数据密钥、用户记录等,这些数据是网络的配置管理和安全管理的基本数据;控制数据用于存储网络的操作设置。控制数据代表网络中那些可调整参数的设置,如中继线的最大流、交换机输出链路业务分流比率、路由表等。它主要用于网络的性能管理。
2.2 网络管理系统的功能结构
前面介绍了网络管理体系模型结构中各要素在一个实际的网络环境中的结构配置,下面将从网络管理系统的角度来看一下一个网络管理系统的功能组成问题。一般从功能上讲,一个网络管理系统有4个基本的层次。每个层次都有自己的一套任务,分别用来完成网络管理的不同工作,诸如提供、格式化或收集必要的数据以达到管理网络设备的目的等。图2-2阐述了网络管理系统的功能结构的4个层次。
图2-2 网络管理系统的功能结构
1.被管对象
如前所述,被管设备是一种网络互连设备、系统或任何需要某种形式的监视和管理的设施。然而,大部分网络管理系统的实现都把最后一类被管对象忽略了,原因是这些系统在设计之初,通常都没有一个很具体的商业例子的需求,它们只是根据自己的想象来设计的。
具体的被管对象的例子包括路由器、集线器、主机、服务器及应用程序,如Oracle数据库系统,Microsoft的系统管理服务器(System Management Server,SMS),Lotus Notes和MS Mail等。被管对象不一定非得是一个硬件部件,而应该被描述为网络上提供的一种功能。
2.单元管理系统
单元管理系统(Element Management Systems,EMS)一般用于管理网络中的一个特定网段,如SunNet Manager(基于SNMP的网络管理系统)主要用来管理支持SNMP agent的被管网络元素。EMS可用于管理包括异步线路、多路复用器、PABX系统及专用的系统或应用程序等在内的各种被管设备。
3.单元管理器管理系统
单元管理器管理系统(Manager of Managers Systems,MoM)从字面上理解即是指管理单元管理系统的管理器,它综合集成由多个单元管理系统收集来的各种管理信息,然后完成整个网络系统的管理工作,这类工作通常包括对来自多个单元管理系统的故障等事件进行关联,并统一实施故障报警等。这种产品的例子包括Boole & Babbage公司的ConmandPost系统,NyNEX公司的AllLink,International Telematics公司的MAXM,OSI的NetExpert系统等。
需要指出的是,在大多数情况下,实际的数据是从被管对象那儿收集来的,而且这些数据是由单元管理系统收集的,然后经过一定的格式转换存入数据库以供进一步的处理和检索之用。
4.用户接口
用户接口(User Interface,UI)是配置一个成功的系统所必不可少的重要部件,不管这些信息是实时报警信息,还是其他各种性能趋势分析图或性能分析报告。如果系统收集的信息不能有效地分发到整个MIS组织,以使相关的管理人员及时得到通知,并使这种组织内部的通信畅通无阻,那么网络管理系统的实现就失去了它的真正目的。如果收集的数据不能有效地帮助相关的管理人员对网络、系统及功能的优化做出较正确的决定,那么这些数据也就没有任何意义了。
反过来,上述这些系统功能部件,应该映射到网络管理的所谓管理功能域(Management Functional Area,MFA)上来,当我们要实现一个网络管理系统时,就应该考虑哪些应用程序要实现和提供哪些功能,并通过管理功能域来弄清楚这些应用程序的功能。
2.3 计算机网络管理模式
集中式网络管理模式和分布式网络管理模式,是网络系统在发展过程中自然形成的两种不同管理模式。它们各有特点,适用于不同的网络系统结构和不同的应用环境。
2.3.1 集中式网络管理模式
集中式网络管理模式是指将网络管理平台建立在一个计算机系统上,并采用单一的集中式数据库,对所有的网管代理进行监控,协同工作实现集成的网络管理,如图2-3所示。
图2-3 集中式网络管理模式
在图2-3中,有一个叫做委托代理的节点,为什么要引出委托代理呢?原因是网络中存在非标准设备,故需要通过委托代理来管理一个或多个非标准设备。委托代理的作用是进行协议转换。
该配置中至少有一个节点担当管理站的角色,而其他节点用于在网管代理模块(NME)的控制下与管理站通信。
NME的主要作用包括以下4个方面:收集统计信息;记录状态信息;存储有关信息,响应请求,传送信息;根据指令设置或改变参数。
集中式网络管理模式在网络系统中设置有专门的网络管理节点。管理软件和管理功能主要集中在网络管理节点上,网络管理节点与被管节点为主从关系。
网络管理节点通过网络通信信道或专门网络管理信道与所有节点相连。网络管理节点可以对所有节点的配置、路由等参数进行直接控制和干预,可以实时监视全网节点的运行状态,统计和掌握全网的信息流量情况,可以对全网进行故障测试、诊断和修复处理,还可以对被管节点进行远程加载、转储及远程启动等控制。被管节点定时向网络管理节点提供自己的位置信息和必要的管理信息。
从集中式网络管理模式的自身特点可以看出,其优点是管理集中,有专人负责,有利于从整个网络系统的全局对网络实施较为有效的管理。(但是让所有的网络管理功能完全依赖于单一的系统并不能做到冗余或容错。理想情况下,应当在另一个物理位置保存系统的备份。但是随着网络部件的增加,对单一系统进行扩展以处理更多的负荷将变得越发困难,成本也太高)。这种管理模式最大的缺点是不得不从一个位置查询所有的网络设备,这会给所有连接到管理站的网络链路以至整个网络带来过多的管理流量。如果从网络管理站到网络的连接中断了,就会丧失所有的网络管理功能。将网络管理站定位在网络的中央点会缓解这个问题,但是网络管理平台的理想位置可能并不是网络管理工程师停留的理想场所。
鉴于此,集中式网络管理模式比较适用于以下网络。
(1)小型局域网络。这种网络的节点不多,覆盖范围有限,集中管理比较容易。
(2)部门专用网络。特别是对于一些行政管理上比较集中的部门,如军事指挥机关、公安系统等,集中式网络管理模式与行政管理模式匹配有利于实施。
(3)统一经营的公共服务网:对于这种网络,从经营、经济核算方面考虑,来用集中式网络管理模式比较适宜。
(4)专用C/S结构网。在这种结构网中,客户机和服务器专用化,客户机的结构已经简化,且与服务器呈主从关系,网络管理功能往往集中在网络服务器上。
(5)企业互联网络。在这种网络中,越来越多地引入了各种专用网络互连设备,如路由器、桥接器、交换机、集线器等,它们本身已不是一个完整的计算机节点,但又在计算机网络中有着重要的地位,应用集中的网络管理节点对它们进行统一管理。
目前,单纯的集中式网络管理模式的应用并不常见,而分布式网络管理模式由于自身的特点则相对应用得比较广泛。下面将对分布式网络管理模式进行详细介绍。
2.3.2 分布式网络管理模式
为了降低中心管理控制台、局域网连接、广域网连接,以及管理信息系统人员不断增长的负担,就必须对那种被动式的、集中式的网络管理模式进行根本地改变。具体的做法是将信息管理和智能判断分布到网络各处,使管理变得更加自动,使在问题源或更靠近故障源的地方能够做出基本的故障处理决策。分布式网络管理模式如图2-4所示。
分布式管理将数据采集、监视及管理分散开来,它可以从网络上的所有数据源采集数据而不必考虑网络的拓扑结构。分布式管理为网络管理员提供了更加有效的、大型的、地理分布广泛的网络管理方案。分布式网络管理模式主要有以下一些特点。
图2-4 分布式网络管理模式
1.自适应基于策略的管理
自适应基于策略的管理是指对不断变化的网络状况做出响应并建立策略,使得网络能够自动与之适应,以提高解决网络性能及安全问题的能力。自适应基于策略的管理减少了网络管理的复杂性,利用它,用户或者应用软件可以确定适合他们的服务质量级别及带宽需求。例如,一个机构里的某位决策人员或某个敏感的多媒体应用,可以被认定或被确定来接受一个有保障的带宽或是高优先级别的服务。
2.分布式的设备查找与监视
分布式的设备查找与监视是指将设备的查找、拓扑结构的监视,以及状态轮询等网络管理任务从管理网站分配到一个或多个远程网站的功能。这种重新分配既降低了中心管理网站的工作负荷,又降低了网络主干和广域网连接的流量负荷。
采用分布式管理,安装有网络管理软件的网站可以配置成“采集网站”或“管理网站”。采集网站是那些接替了监视功能的网站,它们向有兴趣的管理网站通告它们所管理的网络的任何状态变化或拓扑变化。每个采集网站负责对一组用户可规范的管理型对象(称之为“域”)进行信息采集。域可以建立在一系列基础之上,包括拓扑(如局域网段或广域网)或类型(如局域网路由器)。
采集/管理网站跟踪着在它们的域内所发生的网络设备的增加、移动和变化。在规律性的间歇期内,各网站的数据库将与同一级或高一级的网站进行同步调整。这就使得在远程网址的信息系统管理员在监控他们自己的资源的同时,也可让全网络范围的管理员了解到了目前设备的现有状况。采集网站与管理网站之间的数据复制实际上也使得在网络上的任何控制台都能够看到整个网络设备的最新状况。
3.智能过滤
为了在非常大的网络环境中限制网管信息流量超负荷,分布式管理采用了智能过滤器来减少网管数据。通过优先级控制,不重要的数据就会从系统中排除,从而使得网络管理控制台能够集中处理高优先级的事务,如趋势分析和容量规划等。为了在系统中的不同地点排除不必要的数据,分布式管理采用了以下4种过滤器。
(1)设备查找过滤器:规定采集网站应该查找和监视哪些设备。
(2)拓扑过滤器:规定哪些拓扑数据被转发到哪个管理网站上。
(3)映像过滤器:规定哪些对象将被包容到各管理网站的映像中去。
(4)报警和事件过滤器:规定哪些报警和事件被转发给任意优先级的特定管理,目的是排除掉那些与其他控制台无关的事件。
4.分布式阈值事件监视
分布式阈值事件监视有助于网络管理员先于用户感觉到有网络故障,并在故障发生之前将问题检测出来并加以隔离。采集网站可以独立地从相关的对象采集到SNMP及RMON趋势数据,并根据这些数据引发阈值事件措施。采集网站还将向其他需要上述信息的采集网站及管理网站提供这些信息;同时还会有选择地将数据转发给中心控制台,以便进行容量规划、趋势预测,以及为服务级别协议建立档案。
5.轮询引擎
轮询引擎可以自动地和自主地调整轮询间隙,从而在出现异常高的读操作或出现网络故障时,获得对设备或网段的运行及性能更加明了的显示。
6.分布式管理任务引擎
分布式管理任务引擎可以使网络管理更加自动,更加独立。其典型功能包括分布式软件升级及配置、分布式数据分析、分布式IP地址管理。
从分布式网络管理模式的自身特点可以看出,分布式网络管理模式的优点有如下几点。
(1)提供了可扩展性,以适应全新的、不断扩大的网络应用。分布式管理的根本属性就是能容纳整个网络的增长和变化,这是因为随着网络的扩展,监视智能及任务职责会同时不断地被分布开来。
(2)降低了网络管理的复杂性。随着网络节点在数量上的增多,网络结构变得更加复杂,如果在唯一的一台工作站上监视数以千万计的节点显然是行不通的。本地管理控制台能够针对相应网段出现的问题,迅速有效地采取修正行动,能够避免因问题由小变大,最后导致大面积网络瘫痪。
(3)网络管理的响应时间更快,性能更好。分布式管理还极大地减少了由网络管理生成的流量开销,其结果是网络的总体性能变得更好了。
(4)提供网络管理信息共享能力。分布式管理最重要的特性之一就是它提供共享“状态、监视及拓扑映像”信息的能力。这种智能的分布式网络管理信息共享极大地减轻了中心管理网站对内存及CPU资源的需求。同样重要的是,它还使得管理信息系统人员能够在企业网的任何地方查看特定的状态、监视及拓扑映像信息。
鉴于此,分布式网络管理模式比较适用于以下网络。
(1)通用商用网络。国际上流行很广的一些商用计算机网络,如DECnet网、TCP/IP网、SNA网等,它们的管理模式而言都属于上述分布式网络管理模式。因为它们并不设置专门网络管理节点,但仍可保证网络的正常运行,因而可以比较方便地适应各种网络环境的配置和应用。
(2)对等C/S结构网络。对等C/S结构意味着网络中的各节点基本上是平等、自治的,因而也便于实施分布式网络管理体制。
(3)跨地区、跨部门的互联网络。这种网络不仅覆盖范围广、节点数量大,且跨部门甚至跨国界,难以完全集中管理。因此,分布网络管理模式是这种互联网络的基础。
2.3.3 集中式与分布式管理模式的结合
目前,计算机网络正向着局域网与广域网结合、专用网与公用网结合、专用C/S与互动B/S结构结合的综合互联网方向发展。计算机网络的这种发展趋势,促使网络管理模式向集中式与分布式相结合的方向发展,以便取长补短,更有效地对各种网络进行管理。按照系统科学理论,大系统的管理不能过分集中,也不能过于分散,采取集中式与分布式相结合的管理模式应是计算机网络系统管理的基本方向。
计算机网络系统采用集中式与分布式相结合的网络管理模式,大致有以下一些策略和方法。
(1)以分布管理模式为基础,指定某个或某些节点为网络管理节点,并给予其较高的特权,从而可以对网络中其他节点进行监控管理,而其他节点的报告信息也向指定节点汇总。
(2)部分集中,部分分布。网络中的计算机节点,尤其是处理能力较强的中、小型计算机节点,仍按分布式管理模式配置,它们相互之间协同配合,以实行网络的分布式管理,保证网络的基本运行。同时在网络中又设置专门的网络管理节点,重点管理那些专用网络设备,同时也对全网的运行进行可能的监控。这种集中式与分布式相结合的网络管理模式是在许多企业网络中自然形成的一种网管体制。
(3)联邦制管理模式。这种模式经常出现在一些大型跨部门、跨地区的互联网结构中。即各部门有自己的网络,往往各有自己相对集中的管理模式,但整个互联网并没有一个总的集中管理实体,在一般情况下,它们之间互相并不干预,但当涉及互联网正常运行、安全和性能优化等全局问题时,可通过各部门网络管理之间的通信来协调解决。这类似于一种联邦制国家之间的协调关系。
(4)分级网中的分级管理。在一些大型部门、企业中的行政体制就是一种分级树形管理模式,如政府机关、军事、银行、邮电、石油等部门和系统,它们的内部关系就是一种分级从属关系;因此,这些部门所建的计算机网络,在管理模式上也自然需要一种分级管理模式与之适应。在这种分级管理模式中基层部门的网络,有自己相对独立和集中的管理,它们的上级部门也有自己的网络管理,同时对它们的下属网络还具有一定的指导及干预能力。
2.4 计算机网络管理的方法
历史上,网络管理曾经是以多系统(工具)为中心的,每个系统(工具)负责管理数据网络中特定的一部分部件。典型的网络管理中心都有多个独立的系统来分别管理调制解调器、多路复用器、集线器、桥接器、路由器和其他网络部件。由于经费、物理空间和技术力量诸方面的限制,人们希望仅通过一个系统就能管理所有的网络部件,并能在一张网络图上显示出所有网络部件的互连情况。平台化网络管理的方法就是在这种需求的驱动下产生的。
随着网络管理协议和管理信息标准化的发展和进步,网络管理平台变得越来越重要了。和传统的、独立的网络管理工具不同,网络管理平台提供了一个统一的基础结构,在这个结构中可以嵌入各种各样的网络管理应用程序。由于网络管理平台也很强调标准化的问题,因此从某种程度上来说,它也是一种独立于特定制造商和特定功能的机制。
2.4.1 网络管理平台的功能特性
网络管理平台和传统的网络管理工具有很大的区别。简单地说,传统的网络管理工具具有以下几个特性。
(1)它们只支持特定的网络管理功能域,如诊断工具只用于故障管理等。
(2)它们只支持特定厂商提供的产品。
(3)它们要么是根本不提供开放的、用于扩展功能域或开发新的应用程序的接口、要么是只提供特定厂商的非标准的接口。
网络管理平台是一个软件包,它提供了对多种网络部件进行管理的基本功能。网络管理平台的目的是为管理多种网络设备提供一般性的功能。这些基本功能包括以下几点。
(1)图形用户接口(GUI)。
(2)网络拓扑图。
(3)数据库管理系统(DBMS)。
(4)查询设备的标准方法。
(5)可定制的菜单系统。
(6)事件日志。
出于很多原因,包括使用户对平台功能的访问更为方便等,GUI都显得非常有用。GUI应该遵循一种统一风格的标准。通过标准GUI,平台将按照一种由多家厂商共同遵循的规范来运行。正如将在下一节所要讨论的那样,今后整个网络管理系统最有可能由一种平台和来自不同厂商的应用程序共同组成。如果所有的厂商都采用统一风格开发他们的应用程序,就会使系统变得更易于使用和掌握。
网络拓扑图几乎对网络管理的每个方面都很有用。通过在网络拓扑图中使用颜色和失效管理工具可以帮助确定故障原因;配置管理工具能够以图示的方法显示出网络物理的和逻辑的配置情况;性能管理工具也可以用颜色或不同图形显示出设备和链路当前的性能。如果网络管理平台提供了发现物理设备(称为自动发现)及绘制网络图(称为自动绘图)的途径,还将会带来额外的好处。
数据库管理系统在许多网络管理任务中也很有帮助。如应用程序可以使用数据库存储信息;数据项之间可以建立起某种关系,有助于进行网络诊断和维护;许多数据库管理系统都允许用户生成定制报告,执行自动备份等。
用以查询设备的标准方法也是必不可少的,因为平台必须能够从许多来自不同厂商的部件中收集信息。一个可定制的菜单系统也是必需的,这样就允许对平台进行无缝地扩展(至少在用户看来是这样的)。
最后一种网络管理平台必不可少的功能是事件日志。事件日志以可读格式按时间顺序记录了每一次网络事件。平台将任何已知的网络事件信息记入日志,但平台也能产生自己的网络事件。另外网络设备能够发出网络事件的异步消息。不管平台是怎样得知网络事件的发生的,它都应当提供一个事件日志,以帮助网络工程师随时了解网络状况。
另外,网络管理平台还应当具备如下基本功能,这可看作是一种策略性的解决方案。
(1)绘图工具。
(2)应用程序编程接口(API)。
(3)系统安全。
网络管理平台应当向网络工程师提供绘图的能力,比如绘制数据的折线圈、条形图或饼图等。还有将图并入报告的能力也很有用,因为管理者往往愿意看到图形信息而不是原始数据或文字报告。当前网络流量和错误的图示对失效管理和性能管理很有帮助,而历史数据图有助于了解网络运行的趋势。
API是用来访问网络管理平台内部信息的编程过程及函数库的。只有通过API,外部程序才能使用网络图,集成菜单系统,保存和检索数据库信息,向事件日志发送消息等。此外还有两个原因使API显得非常重要:它可以集成各厂商的应用程序,而且它使工程师能为他们的环境编写定制程序。没有API,网络管理平台实质上就变成了一个“黑箱”,只允许第三方扩展或局部定制。另外,对多种网络管理平台之上的API还需要进行标准化。没有标准化的API,如果决定改变平台,就需要改变和平台进行通信的应用程序了。
网络管理平台的另一个重要功能是其自身具有安全机制。网络管理平台及相关的应用程序包含了大量涉及网络、部件设备的配置、网络和应用的安全、性能及计费方法的信息。这些信息都给任何意欲危及网络安全的网络黑客提供了帮助。所以必须在平台所处的操作系统所提供的安全性之上,增加平台自身的安全机制。在很多情况下,操作系统根本没有安全性可言(如同许多种类的DOS一样),又或是由其他机构来负责建立操作系统的安全机制。
通过分析,可以把网络管理平台的功能特性进一步总结为如下几点。
(1)它们大多运行在一个开放的系统环境下,换句话说,运行在具有开放接口的系统中,比如UNIX操作系统。
(2)它们大多提供一个基于X-Windows/Motif的图形用户界面。
(3)它们能够管理来自不同厂商的网络资源和设备。
(4)它们也不局限于某一个特定功能域的管理。
(5)它们具有一种模块化的结构,其中不同的模块可分布在多个不同的系统上运行。
(6)它们大多基于面向对象的数据模型,换句话说,网络资源被模型化为对象,管理操作通过对对象的访问来实现。
(7)它们都提供基于国际标准定义良好的接口,并支持新模块的进一步集成。这些模块可以是某一特定功能域的应用程序,也可以是管理特定厂商产品的模块。
(8)应用程序可以通过这些接口访问资源,而不必要知道哪个厂商实现的这些资源或者如何通过网络到达这些资源。
(9)通常网络管理平台都安装在一个用于管理网络或分布式系统的网络管理工作站上。
2.4.2 网络管理平台的基本应用
从用户的观点来看,从某种意义上说,绝大部分网络管理平台的一些基本应用是原语级的,基本上只限于对从被管设备获得的信息进行可视化处理等。这类应用的一个例子是MIB浏览器,它提供了一种直接访问被管系统的管理信息的接口。MIB浏览器的操作和特定的信息模型有关,比如SNMP MIB浏览器可用于遍历支持SNMP管理能力的设备的管理信息。
网络管理平台的其他基本应用包括网络资源状态的监视,阈值监测,事件管理,配置应用,拓扑管理及性能监视等。
1.网络资源状态的监视
监测资源的目的在于尽可能获得有关资源服务质量和状态的最新信息。监测涉及到访问某些资源的属性。与后面将要介绍的事件管理不同,监测总是由管理工作站发起的,由管理工作站轮询资源并分析轮询结果。因此,监测功能的实现极大地依赖于对单个资源进行寻址所采用的协议。
通过轮询来监测的缺点是响应不完整,没有提供任何有关被管对象状态的直接信息。因此为了提高监测的可靠性,对监测过程可以逐一进行以下配置。
(1)为各系统设置超时间隔。超时间隔指出管理工作站等待一个系统响应的时间有多长。
(2)设置重发计数器,指出在判定一个系统是否有效之前向其发请求的频率和次数。
由于监测是因不同网络拓扑结构而异的,所以对于每个系统,上述两个参数都必须可以单独进行设置。比如,如果从管理工作站可以经窄带或不可靠通信线路到达资源,那么需相应把超时间隔和重发计数器的值设置得较高些。较高值虽然可以增加监测的可靠性,但也意味着会给资源故障的检测带来相应延迟。
2.阈值监测
使用管理协议既可以监测当前的服务质量,又可以监测常规的有效性。因此,网络服务提供者有机会设定阈值,以便和属性的实际值做比较。当使用SNMP时,这些阈值的绝大部分都能够在管理工作站上进行指定、管理和监测;当使用CMIP时,阈值作为被监测系统中的对象而受到监测。在制定阈值监测时必须指定以下参数。
(1)系统中的测量点。
(2)轮询间隔。
(3)阈值。
(4)事件产生所依赖的条件。
当检测到超出阈值的情况时,就向事件管理应用程序发出相应的事件。
阈值的设定在很大程度上取决于设计者的经验知识。当前,还没有哪种工具能够支持对监测过程进行切合实际的配置。因此,用户必须反复对上述参数进行尝试,并确定最适合本系统运行的一套参数。
当前,监测过程主要限制在一个系统上。换句话说,监测过程的所有测量点都位于同一系统内。独立于系统的监测需要平台中有一个网络模型,或是必须由特殊应用来执行。
3.事件管理
事件管理负责接收和处理事件。这些事件可以是由被管设备产生并发送给管理工作站的外部事件,也可以是由网络管理平台产生的其他部件,比如在阈值监测过程中所产生的内部事件。事件管理的具体功能包括以下几方面。
(1)在日志文件中保存事件,用户可以对此文件进行分析,可以按指定的系统、事件或时间等限制条件对日志文件进行访问。
(2)事件到部件相关状态的转换。
(3)向用户报告事件(图形或声音信号)。
(4)向应用程序分发事件。
(5)使用拓扑结构信息等对来自不同系统的事件进行关联。
(6)根据事件类型或事件的其他特定类型参数执行操作。
(7)向管理应用程序转发事件,如果这些应用要求获得某些事件的话。
同时,应当在相应的配置文件中对事件的出现可能采取的动作进行定义,比如发出电子邮件,启动特定的诊断操作,在诸如故障处理系统中产生故障信息,通知维护人员等。
事件对用户的可视化是一种重要的功能。可视化建立在被管资源的状态模型的基础上,这种模型描述了资源的状态与导致状态变化的事件之间的关系。每种状态都被赋予了优先级,这可以通过诸如颜色编码等方式来表示。如果某个符号的颜色改变了,用户应当能够知道是什么事件导致这种变化的发生,并且做出恰当的反应。
当状态信息以图的形式描述时,要考虑到用户不必打开包含相应符号的子图,状态信息就能够以各种方式显示在网络的图形表示中。
单独的状态窗口用于指出处于特定优先级的系统数量。
状态实时变化在图中的动态显示。
向管理工作站报告的大量事件给网络提供者提出了难题。在网络中某一点出现的故障往往会向用户报告大量的事件消息,因为故障向网络的四面八方传播,结果在网络中的许多地点都产生了事件。因此,在管理平台中对事件的过滤和关联成为进行有效事件管理的重要前提。只有网络管理平台支持某种面向网络的信息模型,这种事件的关联才能在平台中进行。
4.配置应用
同上面描述的应用不同,配置应用向用户提供了对资源的写访问。可以把配置应用分成如下几种形式:访问有关当前资源配置的信息;通过管理协议改变配置;通过登录系统进行配置;通过厂商提供的专门模块进行配置。
前两种形式主要通过通用的SNMP来实现,而随着越来越多的设备制造商开始提供允许用户登录系统直接改变系统配置的工具,登录系统进行配置的方式也使用户的配置应用越来越方便。此外,许多厂商都为不同的管理平台提供了专门管理自己产品的软件模块。这些模块提供了用于产生、改变或浏览配置数据的图形用户界面,而且该图形用户界面通常还可以直观地显示设备的配置情况,如接口板的数量,接口的数量及其状态等。配置数据用于在管理工作站中生成可加载的配置文件,此后,该配置文件可通过通信网络加载到该设备上。除了能够进行配置加载之外,配置数据还应该能够支持将现有的配置文件从系统卸载到管理工作站中,而且还应当能进一步使用这些取得的数据。
5.拓扑管理
网络管理平台的另一种重要功能是拓扑发现功能(拓扑发现为拓扑管理功能中的一种)。它包括使用管理协议收集尽可能多的有关网络和资源的配置信息,并且将其保存在网络管理平台的数据库中。
发现功能是非常有用的,如在由一个单位主要负责主干网的运行,而由各自独立的单位管理大多数子网的场合,发现功能对于负责主干网的单位是一种重要的辅助手段,因为可以通过它获得有关使用网络的系统的种类和数目的宏观了解。在无法获得计算机支持的网络文档的情况下,发现功能还为构建管理信息库提供了友好的工具。
下面的技术可以用于实现发现功能。
(1)访问设备中的配置表格,比如可使用SNMP。通过访问系统的路由表和ARP表,就可能判定该系统能同哪些系统进行通信,然后把这些系统作为新系统输入数据库。
(2)测试新发现的系统所支持的协议,并测试新系统是否支持所用的管理协议。如果确实支持并且可以访问,就可访问其管理信息并将其保存在网络数据库中。
(3)使用响应协议,比如ICMP。如果子网是已知的,就可以通过自动生成响应协议所要求的所有可能的地址来产生当前活动系统的一张完整列表。
(4)还可以使用通过协议分析器获得的信息来实现发现功能。
发现功能还可以包含其他一些辅助的功能,如使用名字服务器完成从地址到域名的转换,以及解释Ethernet地址以判断系统的制造商等。在实际应用中,无限制的发现是毫无意义的,因此通过限制子网或通过指定诸如路由器等连接到公共网络的边界系统来控制发现功能作用域更具有现实意义。
另外,如果在实现发现功能的同时能够建立被监视网络的拓扑结构,就称其为自动拓扑功能。
6.性能监视
性能监视用于定义和执行性能的测量。和阈值监测类似,测量由以下参数定义。
(1)通过指定系统和被测量的属性来选择测量点。
(2)选择测量间隔,换句话说,就是执行测量的采样频率。
(3)通过给出起始和终止时间项来指定测量期间。
(4)终止时间也可以通过输入需执行的采样个数来隐式地定义。
其他提供了更好的用户友好性的参数并不是所有的平台都支持的。这些参数包括以下几个。
(1)提供诸如启动、停止、继续和放弃等功能,用以管理测量的进行。
(2)由于部件失效而不能执行性能测量时的处理规则定义机制。在大多数情况下,测量只是简单地被放弃,但是保持暂时放弃测量,一旦故障排除就继续执行会是个更好的选择。在任何情况下,都必须向用户报告这类意外事件,以便对测量结果进行恰当地解释。
(3)从测量结果得到统计性数量的定义。
(4)将测量结果保存在网络管理平台中,并且可以在以后进行分析。在多数情况下,可以提供诸如条带图显示或最小、平均和最大值计算这类用于有限分析的简单工具。
其他更高级的统计工具可用于进一步的分析。当然这就要求收集到的测量数据应以已知的格式保存并且可以被这些统计工具访问。一般地,平台将数据保存在自己的关系数据库中,这样就可以使用数据库提供的标准工具来分析数据了。