使用模板学习信用卡欺诈检测的异常值
通过对模板进行一些更改,这就是我的过程。
我使用x-means和Detect Outlier (LOF)来检测可能的欺诈。原始数据集包含超过284,000行。我选择了前3000行作为第一次尝试。
这是结果,左半部分和右半部分。我看到从高到低的离群值。
在右半部分中,我只在第2行和第5行中看到Class = 1。我猜这些都是异常值。
第2行Outlier = 12.559。第5行Outlier = 8.030。附近有更高值的异常值。既然这两种情况都是类= 1,我是否可以假设它们可能是欺诈?
为了进行比较,我为一个更大的数据集选择了5000行。检测异常值(LOF)需要更长的时间来运行,但我得到了结果。过程保持不变,检索数据集现在有5000行。
这一次Class = 1发生了两次,Outliers分别是16.921和10.364,在Outliers列表中从高到低都不高。
当Class = 1(欺诈?)时,Outlier分数不应该更高吗?
我可能遗漏了什么?
谢谢你的宝贵时间。
托尼
我使用x-means和Detect Outlier (LOF)来检测可能的欺诈。原始数据集包含超过284,000行。我选择了前3000行作为第一次尝试。
这是结果,左半部分和右半部分。我看到从高到低的离群值。
在右半部分中,我只在第2行和第5行中看到Class = 1。我猜这些都是异常值。
第2行Outlier = 12.559。第5行Outlier = 8.030。附近有更高值的异常值。既然这两种情况都是类= 1,我是否可以假设它们可能是欺诈?
为了进行比较,我为一个更大的数据集选择了5000行。检测异常值(LOF)需要更长的时间来运行,但我得到了结果。过程保持不变,检索数据集现在有5000行。
这一次Class = 1发生了两次,Outliers分别是16.921和10.364,在Outliers列表中从高到低都不高。
当Class = 1(欺诈?)时,Outlier分数不应该更高吗?
我可能遗漏了什么?
谢谢你的宝贵时间。
托尼
标记:
0
最佳答案
-
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽这很难确定,因为我不熟悉您的数据集的细节。但这意味着,从技术上讲,这4个在各自的集群中最不像其他的观测值。所以这可能意味着这些很可能是欺诈性的,但你应该回顾这些个案的细节来确认这一点。
5
答案
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
请查看我的屏幕截图,其中Outliers从高到低。其中最大的四个位于集群0和1中。这是否意味着Outlier得分越高,离得越远,因此在前四行数字中欺诈的可能性就越大?
再次感谢。
托尼