使用模板学习信用卡欺诈检测的异常值

tonyboy9tonyboy9 成员职位:106因素二世
2020年9月编辑 帮助
通过对模板进行一些更改,这就是我的过程。



我使用x-means和Detect Outlier (LOF)来检测可能的欺诈。原始数据集包含超过284,000行。我选择了前3000行作为第一次尝试。
这是结果,左半部分和右半部分。我看到从高到低的离群值。



在右半部分中,我只在第2行和第5行中看到Class = 1。我猜这些都是异常值。

第2行Outlier = 12.559。第5行Outlier = 8.030。附近有更高值的异常值。既然这两种情况都是类= 1,我是否可以假设它们可能是欺诈?





为了进行比较,我为一个更大的数据集选择了5000行。检测异常值(LOF)需要更长的时间来运行,但我得到了结果。过程保持不变,检索数据集现在有5000行。

这一次Class = 1发生了两次,Outliers分别是16.921和10.364,在Outliers列表中从高到低都不高。

当Class = 1(欺诈?)时,Outlier分数不应该更高吗?





我可能遗漏了什么?

谢谢你的宝贵时间。

托尼







标记:

最佳答案

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    不完全是这样,因为LOF是在寻找相对于它的邻居的异常值。所以如果你定义了两个集群,其中一个包含很多欺诈案例,那么那些处于集群中间的案例可能没有很高的异常值。离群值评分和聚类并不是做同样的事情。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • tonyboy9tonyboy9 成员职位:106因素二世
    谢谢你,布莱恩,你的观点很好:“离群值得分和聚类并不是真正做同样的事情。”

    请查看我的屏幕截图,其中Outliers从高到低。其中最大的四个位于集群0和1中。这是否意味着Outlier得分越高,离得越远,因此在前四行数字中欺诈的可能性就越大?

    再次感谢。

    托尼


登录注册置评。