Rapidminer单列异常检测是/否

IndhumathiIndhumathi 成员职位:3.新手
你好所有的,

我有一个1000行的数据集,其中一列包含是/否,以标识为异常。我想用这个数据集来训练模型。我应该在监督技术中使用哪个模型,我如何设计我的工作,它有两个输入,一个是有标签的训练集,另一个是没有标签的训练集。

任何示例过程都将非常有用。

谢谢,
Indhumathi
标记:

答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    你好@Indhumathi

    我有两点建议:

    -对标记的数据集使用autommodel: autommodel将自动为您找到最佳的分类器模型。
    -关于如何使用标记数据集训练模型,然后如何使用该训练模型对未标记数据集进行评分,您可以看看RapidMiner提出的示例过程,更一般地,您可以看看RapidMiner学院的视频,以熟悉数据科学项目的过程:乐鱼平台进入
    https://academy.www.turtlecreekpls.com/

    希望这能有所帮助,

    问候,

    莱昂内尔
  • IndhumathiIndhumathi 成员职位:3.新手
    lionelderkrikor我使用了自动模型和随机森林来训练模型,然后使用Apply模型在test集中进行测试。现在工作得很好。我根据如下2列值手动创建了异常标志列,

    A B异常
    1000 00(否)
    50 0 1(是)
    4010(否)
    2310(否)
    0 0(没有)

    现在我想知道任何其他列影响异常,即我不是告诉模型,基于只有2列异常标志被标记,系统应该告诉我这些其他列C,D,E也影响异常标志,这些也可能是可能性。
    为了达到以上目的,我尝试了以下两种方法:

    1)建立LOF无监督模型。我不知道它是根据哪一列来分配离群值的
    2)将LOF输出列-“outlier score”作为标签输入到Decision tree autommodel中,检查哪个属性对分数有贡献。我已经在预测标签中检查了红色(矛盾)和绿色(支持)的各种颜色深度。但我相信绿色高亮的列应该不会造成异常。我该如何改变呢?

    同时,我也想为异常中的模式提供一个解决方案。我如何通过模型实现这一点?

    谢谢,
    Indhumathi
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    你说的“为异常中的模式提供解决方案”是什么意思?如果您正在谈论描述单个属性和结果之间的关系,请查看操作符“解释预测”和“模型模拟器”。这些允许您查看自变量的变化如何影响基于所选模型的预测,即使它非常复杂。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入数据科学咨询由认证的RapidMiner专家
  • IndhumathiIndhumathi 成员职位:3.新手
    你好,

    谢谢你的建议。

    是的,我分析了第2步的输出,即决策树预测/模拟器,可以看到影响分数的属性集。如果我将相同的LOF输出到随机森林模型中,我可以看到影响分数的不同属性集。现在决策树和随机森林的预测结果都不太接近原来的LOF离群值。那么我应该选择哪种方法呢?

    1)我如何比较哪种方法预测正确?

    2)我的意思是,如果异常是基于特定的属性集(A,B),那么我需要提供一个像属性A和B一样的解决方案,以便在系统中正确配置。如果是基于C,D,那么应该设置正确的阈值,以避免超售。
登录注册置评。