“异常检测:用数据点的RowID注释离群图点?”

Fred12Fred12 成员职位:344独角兽
2019年6月编辑 帮助

我使用了k-nn的全球离群值评分,是否有可能用离群值(例如“top10”或由RowID识别)注释图表,用各自的RowID,直接看到其中哪个是离群值?例如,另外一个颜色渐变..

此外,我能以某种方式使用优化参数除了k-nn GOS,或局部离群因子?根据不同的参数识别不同的异常值?

问题是,像opt. parameters这样的操作符等待一个性能向量…这没有提供异常值检测…

标记:

最佳答案

  • JEdwardJEdward RapidMiner认证分析师,RapidMiner认证专家,会员职位:578独角兽
    解决方案接受
    在这种情况下,我所做的通常是向我的数据集中添加另一列,这是一个二项式离群值= true / false。然后我将其用作散点图中的颜色,以突出我的异常值。通过为每种技术创建多个列,我还可以看到使用这种方法的离群值检测方法在视觉上是如何不同的。




    使用高级图表可以改变散点的形状(我相信这是正确的术语): D),但我个人认为这有点繁琐,所以使用预先准备好的Python/R/Javascript将可视化发送到磁盘。
    RandyLeBlanc

答案

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3332年RM数据科学家

    亲爱的弗雷德,

    您可以使用循环参数(可能使用Select Subprocess)来获得各种方法的结果。

    当然,您可以使用过滤示例(可能是范围)来找到10个最异常的示例。

    ~马丁

    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
  • Fred12Fred12 成员职位:344独角兽

    好吧,但是我想将前X个异常值与我的结果中的“正常”散点图“合并”……这可能吗?

    它不可能通过选择RowID注释图中的点?

登录注册置评。