如何解决100%的数据准确性在快速矿工??(紧急)

StudentNeedsHelpStudentNeedsHelp 成员职位:2新手
2020年8月编辑 帮助
大家好,

其目的是根据所提供的数据集以最佳的准确性捕获和预测欺诈案件。例如,被提名为欺诈的案件,结果是非欺诈的案件,并不像预测为非欺诈的案件那么重要,结果却是。

为此,我想使用逻辑回归,神经网络和决策树进行比较(提供了工作)。每当我运行这些模型时,所有的准确率都接近100%,这肯定是不正确的。

我是新的快速挖掘和数据预处理,有人能告诉我,我应该朝哪个方向?
Fraudsys.csv 3.6米
process1.rmp 34.6 k

答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1194年独角兽
    (电子邮件保护)

    考虑到你的数据集是高度不平衡的(在你的数据集中,“非欺诈”案例比“欺诈”案例多得多)
    这就是为什么模型很难建立你的特征和你的标签的少数类别(“欺诈”)之间的关系。
    总之,该模型将你的所有交易都视为“非欺诈”,这就是为什么你的准确率接近100%。
    我认为在你的情况下,一个更好的绩效指标是“阶级回忆”。你想要优先正确预测诈骗案件,不是吗?
    为此,您必须通过增加“欺诈”案例的示例数量来增加初始数据集的样本
    击杀Upsampling操作符。这样,就会增加班级对欺诈案的召回。

    理想情况下,您可以在上采样操作符之后使用Auto-Model,并在“准备目标”屏幕上定义成本矩阵(通常您可以“量化”“假阴性”错误分类的成本和“假阳性”错误分类的成本)。
    自动模型将被执行,以尽量减少错误分类的成本,并在罚款,以最大限度地提高收益…

    希望这能帮到你,

    问候,

    莱昂内尔
  • StudentNeedsHelpStudentNeedsHelp 成员职位:2新手
    @lionelderkrikor谢谢你的解释,现在明白多了。是的,首要任务是正确预测欺诈,并确保欺诈不被标记为非欺诈。我现在在非负系数的逻辑回归上使用了SMOTE上采样。准确率已经下降到97-98%左右。有没有一种方法可以在不使用自动模型的情况下量化假阴性和阳性?第二个模型,神经网络仍然显示不平衡,我很困惑如何找到罕见的类负责。

    谢谢
  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1194年独角兽

    @StudentNeedsHelp

    是的,如果没有自动建模,您可以使用性能(成本)操作人员首先量化FN和FP的成本,并计算错误分类的最终成本。
    请查看附件中的过程,使用您的数据进行实验并了解....

    希望这能帮到你,

    问候,

    莱昂内尔
登录注册置评。