Rapidminer单列异常检测是/否
Indhumathi
成员职位:3.新手
在帮助
你好所有的,
我有一个1000行的数据集,其中一列包含是/否,以标识为异常。我想用这个数据集来训练模型。我应该在监督技术中使用哪个模型,我如何设计我的工作,它有两个输入,一个是有标签的训练集,另一个是没有标签的训练集。
任何示例过程都将非常有用。
谢谢,
Indhumathi
我有一个1000行的数据集,其中一列包含是/否,以标识为异常。我想用这个数据集来训练模型。我应该在监督技术中使用哪个模型,我如何设计我的工作,它有两个输入,一个是有标签的训练集,另一个是没有标签的训练集。
任何示例过程都将非常有用。
谢谢,
Indhumathi
标记:
0
答案
我有两点建议:
-对标记的数据集使用autommodel: autommodel将自动为您找到最佳的分类器模型。
-关于如何使用标记数据集训练模型,然后如何使用该训练模型对未标记数据集进行评分,您可以看看RapidMiner提出的示例过程,更一般地,您可以看看RapidMiner学院的视频,以熟悉数据科学项目的过程:乐鱼平台进入
https://academy.www.turtlecreekpls.com/
希望这能有所帮助,
问候,
莱昂内尔
A B异常
1000 00(否)
50 0 1(是)
4010(否)
2310(否)
0 0(没有)
现在我想知道任何其他列影响异常,即我不是告诉模型,基于只有2列异常标志被标记,系统应该告诉我这些其他列C,D,E也影响异常标志,这些也可能是可能性。
为了达到以上目的,我尝试了以下两种方法:
1)建立LOF无监督模型。我不知道它是根据哪一列来分配离群值的
2)将LOF输出列-“outlier score”作为标签输入到Decision tree autommodel中,检查哪个属性对分数有贡献。我已经在预测标签中检查了红色(矛盾)和绿色(支持)的各种颜色深度。但我相信绿色高亮的列应该不会造成异常。我该如何改变呢?
同时,我也想为异常中的模式提供一个解决方案。我如何通过模型实现这一点?
谢谢,
Indhumathi
Lindon合资企业
乐鱼平台进入数据科学咨询由认证的RapidMiner专家
谢谢你的建议。
是的,我分析了第2步的输出,即决策树预测/模拟器,可以看到影响分数的属性集。如果我将相同的LOF输出到随机森林模型中,我可以看到影响分数的不同属性集。现在决策树和随机森林的预测结果都不太接近原来的LOF离群值。那么我应该选择哪种方法呢?
1)我如何比较哪种方法预测正确?
2)我的意思是,如果异常是基于特定的属性集(A,B),那么我需要提供一个像属性A和B一样的解决方案,以便在系统中正确配置。如果是基于C,D,那么应该设置正确的阈值,以避免超售。