Q005 为什么要选择OSSIM作为运维监控平台?
谈到监控工具,首先要知道哪些指标需要监控?能监控到什么?应监控到何种程度?下面先谈谈运维的现状。
1.运维现状
传统企业的网络运维是用户在使用计算机时发现故障之后通知运维人员,再由运维人员采取相应的补救措施。运维人员大部分时间和精力都花在处理简单且重复的问题上,而且由于故障预警机制不完善,往往是故障发生后才进行处理。因此运维人员的工作经常处于被动“救火”状态,这种模式让IT部门疲惫不堪。此处,不少企业存在盲目建设、重复建设运维系统的现象。目前在运维管理过程中缺少明确的角色定义和责任划分,以及自动化的集成运维管理平台,以至于问题出现后很难快速、准确地找到原因,而且在处理故障之后也缺乏必要的跟踪与记录。这种状况下,运维质量怎么能提高?生产部门怎么能对运维部门有满意的评价?
2.发觉隐藏在流量背后的秘密
监测网络接口的通断流量已满足不了目前运维的需要,我们需要将流量分析得更深入。传统流量监控工具多数只能查看流量变化趋势,而很多漏洞、ShellCode攻击往往混杂在正常流量中进入企业网。要想知道每个数据包中携带了什么内容,普通的“摄像头”无法满足需求,需要更强大的“X透视相机”进行协议分析。只有准确理解事物的本质,才能对症下药。图1-2所示为利用Snort发现ShellCode攻击的实例。
图1-2 ShellCode的有效载荷实例
3.安全运维的挑战
在大数据时代下,运维工程师面对大量网络安全事件,往往遇到如下挑战。
〇 每天出现的巨大数量的安全报警。管理员很难对这些报警做出响应。
〇 误报严重。管理员无法准确判断故障。
〇 大量重复报警。黑客的一次攻击行动会在不同阶段触发不同安全设备的报警,这样导致在时间和空间上存在大量重复报警数据。如果不实现安全事件的关联处理,就无法提高报警质量。
出现这些问题的原因是企业缺乏事件监控和诊断的运维工具,如果没有高效的管理工具来支持,那么就很难让故障事件得到快速处理。市面上有很多运维监控工具,例如商业版的Cisco Works 2000、SolarWinds、ManageEngine以及专注于故障监控的WhatsUp Gold,在开源领域有MRTG、Nagios、Cacti、Zabbix、Zenoss、OpenNMS、Ganglia、ELK等。
由于它们之间的数据没有关联,所以即便部署了这些工具,很多运维人员也没有从重复性的工作中解脱出来。成千上万条报警信息堆积在一起,运维人员根本没办法判断问题的根源在哪里,更别提信息筛选和数据挖掘了。
另外,在需要多次登录才能查看各种监控系统时,没有统一的门户站点,这就需要查看繁多的界面。而且更新管理的大多数工作都是手工操作,即使一个简单的系统变更或更新,往往也需要运维人员逐一登录系统,当需要维护成百上千台设备时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,这无疑会占用大量的运维资源。因此,运维工作人员需要统一的集成安全管理平台。
4.人工整合开源工具
人工整合开源监控系统的难点如下。
〇 软件和各种依赖问题难以解决。
〇 各子系统的界面存在重复验证和界面风格问题。
〇 各子系统中的数据无法共享。
〇 无法实现数据间关联分析。
〇 无法生成统一格式的报表。
〇 缺乏统一的仪表盘来实时展示重要的监控报警。
〇 无法对网络风险进行评估。
〇 各子系统的维护难度增大。
在实践中可以发现,使用手动集成安全监控工具的方案遇到了性能问题,一些脚本会周期性地消耗较多的CPU和I/O资源,很难做到实时分析。
5.集成安全运维平台的选择
优秀的安全运维平台需要将事件与IT流程关联起来,一旦监控系统发现性能超标或出现宕机现象,就会触发相关事件以及事先定义好的流程,自动启动故障响应和恢复机制。还需要能够筛选出运维人员以完成日常的重复性工作,提高运维效率。这些功能都是常规监控软件(如Cacti、Zabbix)所无法实现的。
与此同时,还要需能预测网络威胁,能够在故障发生前报警,让运维人员把故障消除在萌芽状态,将损失降到最低。
总体来说,运维工程师需要在一个平台中实现资产管理、分布式部署、漏洞扫描、风险评估、策略管理、实时流量监控、异常流量分析、攻击检测报警、关联分析、风险计算、安全事件报警、事件聚合、日志收集与分析、知识库、时间线分析、统一报表输出、多用户权限管理等功能。是否有这种平台呢?
目前市面上有多种产品可满足这样的要求,SIEM产品主要有HP ArcSight、IBM Security QRadar SIEM和AlienVault的OSSIM。现在的问题是并不缺少商业SIEM解决方案,在开源软件中,OSSIM是最佳选择。OSSIM可以将原来一个机架上复杂的应用服务器(OSSEC、OpenVAS、Ntop、Snort等)整合进OSSIM系统中,如图1-3所示。这样不但整合了系统,而且提高了机房利用率。
图1-3 将诸多应用整合到OSSIM系统
之所以能够整合,原因在于OSSIM可将很多优秀的开源软件集成在一起,用户无须安装软件,无须编程就能将一个复杂的SIEM平台一步到位地部署在企业网中。
在使用OSSIM系统时,也不用考虑如何建模和考虑收集什么数据。它有设计好的几百个现成的插件,能帮你归纳并整理日志信息,保证所有数据都具有规范化的事件格式。
用户也不用考虑日志收集过多而导致的存储压力,因为OSSIM提供了关联分析技术和优化的存储设计,这可以从成千上万条日志中通过归纳、关联分析筛选出安全分析人员感兴趣的安全事件,并存储到数据库,同时向管理员发出报警。引入日志在线鲜活窗口可分析最新鲜的日志,而超过时间窗口的老数据会被归档到磁盘,这使得枯燥的日志收集分析变得更加智能化。OSSIM企业版为了将自己打造成一款智能化的运维分析平台,内置了2000多条网络攻击关联分析规则和上百个不同指标的报表模板。
以前,网络运维人员为了掌握网络内部数据的情况,需要花费大量精力和时间去尝试各种管理软件,配置各种安全管理工具,但真正用于数据分析的时间却不多。OSSIM提供的平台可将企业网中所有的数据汇总组成一个大数据分析平台,让安全分析人员能够用更多的时间去分析数据,并能够利用这个集成化的统一运维平台更加客观、理性地分析现有网络的安全情况,而不是像过去一样花费大量时间搭建平台。
为了满足不同用户的需要,OSSIM既有可以部署在本地的版本,也提供了云平台(Hyper-V、Azure、AWS、VMware)的商业版本AlienVault USM Anywhere,主界面如图1-4所示。
图1-4 AlienVault USM Anywhere主界面
根据用途不同,AlienVault又可细分为开源OSSIM和商业版USM及云平台这3种。这些集成监控工具可约束用户操作规范,并对计算机资源进行准实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用等内容,并通过自动监控管理平台来对故障或问题进行综合处理和集中管理。如果不想购买昂贵的商业软件,不愿意投入大量精力进行开发,那么可使用OSSIM平台。