Monday, May 21, 2007

Nagios网络警报被SNMP虚假警告打败

2007-04-12 09:24
  位于旧金山的在线租赁服务代理公司Mynewplace.com的HP ProLiant服务器在技术上没有什么问题,但是IT员工在早上4点钟就开始不停收到哔哔的声音,这些警告最终被证明是虚假警报……

  位于旧金山的在线租赁服务代理公司Mynewplace.com的HP ProLiant服务器在技术上没有什么问题,但是IT员工在早上4点钟就开始不停收到哔哔的声音,这些警告最终被证明是虚假警报。

  所以尽管服务器没有问题,IT员工却并非如此。每个月都要浪费几天时间在诊断他们的50 台运行Red Hat Enterprise Linux 4 AS 和 ES 操作系统的HP ProLiant DL145s 和 DL385s服务器上,John Shin说,他是Mynewplace.com公司负责系统的主任。Shin下决心说他们需要一些改变了。

  与网络监控斗争

  “我们与网络监控进行斗争,”Shin说,但是这只是一个保守的掩饰。事情是如此糟糕,实际上,去年的某个时间,他决定将所有的监控应用程序一起失效,因为它们所带来的坏处超过了他们的好处。

  这个应用程序就是Nagios,一个流行的开源系统,网络监控应用程序,可以为用户自定义的主机和服务提供警报。然而,在Shin的网络中,它被错误 地触发了警报,因为简单网络管理协议(SNMP)与Mynewplace.com的开源应用程序服务器,Resin 2.0不兼容。Resin 是PHP脚本语言基于Java实现的,并且被位于圣地亚哥的Caucho技术公司提供维护和支持。

  Nagios, JVM 和 Resin 2.0 的灾难

  因为Resin 和 Nagios不能直接兼容,Shin只能通过SNMP求救于应用程序栈的Java虚拟机(JVM),并且用这种方式监控环境。不幸的是,在这样条件的响应时间是非常慢的,他说。

  “Nagios并不是真正问题所在,”Shin说。“是JVM栈不能正确响应。它在SNMP中记录事件,然后被Nagios观察到,这就让事情犹如爬行。这里浪费了好几个小时,并且它在凌晨四点触发了警报。”

  除了在开源仓库(例如SourceForge.net)中的流行之外,Nagios也有不少诽谤者。在 SearchEnterpriseLinux.com网最近一次进行的采访中,Zenoss Inc.公司的首席执行官Bill Karpovich批评了Nagios,说它缺乏企业级的支持。“维护从来像一个IT经理们会用它来监控整个企业环境的项目那样进行过,”他说。 Zenoss是在系统管理领域内的开源发起人之一。

  另一个选择:惠普的OpenView

  像许多具有网络监控需求的用户一样,Mynewplace.com首先看到了惠普公司的系统管理套件,OpenView。然而,Shin说,这是针对中型企业的,Mynewplace.com有预算方面的限制,而OpenView价格太贵买不起。

  惠普提供的功能丰富的,价格昂贵的产品,还有其他四大成员——IBM,CA,BEA——促进了“四小”(这个词是分析机构RedMonk首次提出)的 诞生,分别是Hyperic, Zenoss, Qlusters和 GroundWork。来自这些企业的老总们期望他们的芯片可以在有价值的中等市场上赢得类似Mynewplace.com这样的客户。

  与OpenView相比较而言,来自“四小”的产品在价格上要平均便宜2.5倍,Shin发现,虽然他没说具体的钱数。OpenView还有另外一个 打击:“它没有在合适的地方放置框架来监控我们一些关键的应用程序,”也就是Resin 和 Postgres,Shin说。

  拼命寻找Resin的支持

  Shin的惟一一个对网络监控应用程序的需求就是它可以与Resin兼容。但是到现在为止他还没有找到——收费的,或者是开源的——都无法与Resin兼容。

  但是,在3月份,一次简单的Google搜索发现了一个意外:Hyperic HQ 3.0,这是位于旧金山的Hyperic公司的旗舰产品。与其他许多商业开源公司一样,Hyperic免费提供了产品的下载,通过GNU公共许可证 (GPL)可以使用,然后再向顾客销售所需的支持。Shin下载了一个免费的拷贝来测试。

  在3月31日,Shin说Mynewplace.com与Hyperic公司以一个“不错的折扣”签订了一份合同,支持4台ProLiant机器上的 25%的节点,具体钱数没有透漏。“机器外的支持和与Resin的兼容值得这个数,”他说,在这四台机器上,虚假警报终于停止了。

  将Nagios监控的机器向Hyperic移动的过程也需要感谢一下HQ公司的自动发现工具,Shin说。在安装上,HQ自动发现并集成了Shin的 Nagios环境。HQ还能收集来自Nagios 提供的响应代码,还有Shin现有的Nagios插件也会以基于文本的形式报告输出。这些插件进行了主机和服务的检测,然后返回给Nagios主机或者服 务的状态。

  机器上运行的是Red Hat Enterprise Linux AS 和 ES,Postgres,以及一个名为StrongMail的安全邮件服务器。最终,如果所有这些都按照计划完成,Shin期望他可以在今年下半年用 Hyperic HQ替换掉剩余的仍然用Nagios SNMP监控75%的节点。

  与此同时,Shin不后悔忽略掉惠普的OpenView。“如果我们使用了OpenView,你就可以设想一下,所有的客户工作和插件都要与我们的核 心需求一起工作起来,这需要的时间与现在Nagios所需要的时间也差不多了,”Shin说。“与我们现在所做的比较起来,过去我们通常每个月要花费5个 人日来维护Nagios,这是没有道理的。现在每个月只用几个小时。”

  对这篇文章有疑问或者评论吗?请发送电子邮件给Jack Loftus新闻编辑,不要忘了参观我们的新博客,企业 Linux 日志。

No comments: