“创建关联算法时间集群模板”
你好,
如果我先解释一下我有什么,会容易些。我们开始吧:
在我的公司有一个小的服务器农场,有5台服务器。
服务器上运行着一个大型CRM系统。
还有一个监控系统来检查服务器的可用性。
如果发生错误,监视系统会识别它,为支持团队创建一条消息,并将故障存储在db2数据仓库中。
监控系统还存储了许多组件的状态,如CPU_Usage, Memory_Usage,…每台服务器每15分钟一次。
现在的想法是在数据仓库上执行分析任务。我想看看在一台服务器上发生的故障与另一台服务器上的cpu使用率之间是否存在依赖关系。
愿景是得到这样一个规则:“如果是星期一8:15,Server1 CPU_Usage>85%, Server2 CPU_Usage>91%,那么存在77%的可能性会发生故障。”
在第一步中,我想创建一个时间集群模板,如下所示:
[img = http://img13.imageshack.us/img13/3774/templateg.th.jpg]
因此,我可以保存该方案中的失败计数,并且可以保存该方案中每个服务器的CPU_Usage的平均值。
如果我有这些表,我可以看看一个失败的时间戳,检查CPU_Usage在这个时刻与“正常的CPU_Usage”,并决定它是否在一个正常的区域。(对于每个服务器)。在最后,我想有一个表,如果服务器的CPU_Usage处于异常区域,则故障时间戳存储为“y”,如果是正常值则存储为“n”。在这张表上,我想使用一个关联算法,以获得如上所述的规则。
在这里,我想描述我的过程(红色“V”是变量):
[img = http://img26.imageshack.us/img26/8751/modellc.th.jpg]
我的问题是,如果我必须写一个工具来做在时间段提取或有一个更容易的方法来得到我想要的。
谢谢你的帮助
克里斯
注:
我知道这个分析不是很有趣,因为一个严重农场的失败有很多原因。但这只是我进入数据领域的第一个实验。
如果我先解释一下我有什么,会容易些。我们开始吧:
在我的公司有一个小的服务器农场,有5台服务器。
服务器上运行着一个大型CRM系统。
还有一个监控系统来检查服务器的可用性。
如果发生错误,监视系统会识别它,为支持团队创建一条消息,并将故障存储在db2数据仓库中。
监控系统还存储了许多组件的状态,如CPU_Usage, Memory_Usage,…每台服务器每15分钟一次。
现在的想法是在数据仓库上执行分析任务。我想看看在一台服务器上发生的故障与另一台服务器上的cpu使用率之间是否存在依赖关系。
愿景是得到这样一个规则:“如果是星期一8:15,Server1 CPU_Usage>85%, Server2 CPU_Usage>91%,那么存在77%的可能性会发生故障。”
在第一步中,我想创建一个时间集群模板,如下所示:
[img = http://img13.imageshack.us/img13/3774/templateg.th.jpg]
因此,我可以保存该方案中的失败计数,并且可以保存该方案中每个服务器的CPU_Usage的平均值。
如果我有这些表,我可以看看一个失败的时间戳,检查CPU_Usage在这个时刻与“正常的CPU_Usage”,并决定它是否在一个正常的区域。(对于每个服务器)。在最后,我想有一个表,如果服务器的CPU_Usage处于异常区域,则故障时间戳存储为“y”,如果是正常值则存储为“n”。在这张表上,我想使用一个关联算法,以获得如上所述的规则。
在这里,我想描述我的过程(红色“V”是变量):
[img = http://img26.imageshack.us/img26/8751/modellc.th.jpg]
我的问题是,如果我必须写一个工具来做在时间段提取或有一个更容易的方法来得到我想要的。
谢谢你的帮助
克里斯
注:
我知道这个分析不是很有趣,因为一个严重农场的失败有很多原因。但这只是我进入数据领域的第一个实验。
0
答案
有人能帮我吗?
还是我的英语太烂了,没人懂我的意思????
谢谢
谢谢你的回复。我只有两周的时间来完成我的任务。
我只是想知道我如何利用这短暂的时间:
-在RM或更深
-写一个Java工具,创建表,我需要的描述
所以我希望你是对的,我可以做RM的一切。
我知道他们会阅读手册并做例子。
谢谢你的帮助
克里斯
只需更改关联规则示例的输入,看看会得到什么!如果你知道如何处理这些数据是很容易的,但一开始就有点令人生畏,所以如果你陷入了困境,请不要犹豫,在这里发布。祝你好运。
我编写了一个Java应用程序来创建我需要的CSV文件。
现在我有一个csv文件,用于每个失败,其中包含以下列:
Srv1 Srv2 Srv3 Srv4
11 10 1
10 0 1 1
…
CPU_Value不在正常区域,取值为0。
CPU_Value正常为“1”。
现在我想使用每个文件作为FP_Growth的输入。
在此之前,我将数值转换为二项式。
现在我有以下表格作为fp_growth的输入:
Srv1 Srv2 Srv3 Srv4
真真假真
真假真真
…
fp_growth显示一个错误的结果。
它显示了包含“false”值的频繁项目。(这些都不是常见的项目)
我改变了输入表为FP_Growth的形式,我否定的结果:
Srv1 Srv2 Srv3 Srv4
假假真假
假真假假
…
但是fp_growth的结果是不频繁的项目。
有人知道我能做些什么来获得正确的频繁项目吗?
我需要它们作为关联算法的输入。
谢谢你的帮助
克里斯
很高兴看到你取得了进步,这里有一个小例子可能会有所帮助。希望如此。 好运!请让我们知道你进展如何。
附言:你可以看看那些乱搞规则的人http://rapid-i.com/rapidforum/index.php/topic,778.0.html
非常感谢你的榜样。
现在我得到了我想要的结果。(关联规则,描述哪些服务器可能对故障负责)
首先,这对我来说已经足够了。现在我要写我的学士论文关于tivoli数据仓库的知识发现,用于早期发现siebel crm系统中的错误。
非常感谢你的帮助。D;
克里斯