使用隔离林运算符时,帮助解释异常值/异常

kdafoekdafoe 成员职位:18Maven
编辑于2022年1月 帮助
你好。我真的很喜欢异常检测扩展下的隔离森林操作符。树=100,叶大小=2,平均路径作为分数计算的结果,其中前5个异常值与使用Mahalanobis距离函数的R脚本完全匹配。这是比较的好方法。但是对于Trees参数,您是否建议使用一种计算方法或经验法则?或者是分数线?使用我的R脚本比较,我可以很容易地匹配5个最低的分数。分数方面,是否存在一个点或计算,异常值/异常值结束,其余不是异常值?谢谢你的帮助。

标记:

最佳答案

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3331年RM数据科学家
    解决方案接受
    你好,
    很高兴听到我们的输出和r一样。我是它的作者,我只是和sklearn比较。

    我认为通常没有真正的方法来为anomaly_score找到正确的参数或截断。如果你有一个异常的列表,你就可以计算出该集合的召回率和精度。但这种情况相当罕见。

    对于树:我怀疑越多越好,但在某些时候分数应该收敛,更多的树只会导致更多的计算时间。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德

答案

  • kdafoekdafoe 成员职位:18Maven
    谢谢马丁。通过我的抽样和测试,我发现树木的数量没有树叶大小重要。在100到10,000棵树之间的变化对我的顶部异常的结果几乎没有影响,但从叶子大小1到2,不断缩小顶部(意味着那些得分最低的),以匹配我的R脚本。决策树中的叶子大小很容易理解,您可以在可视化中看到使用它的结果,但我不理解当目标是发现决策过程中的异常而不是区别(或杂质)时,叶子大小在隔离森林中有什么作用。你能解释一下吗?再次感谢。
登录注册置评。