如何解决100%的数据准确性在快速矿工??(紧急)
StudentNeedsHelp
成员职位:2新手
大家好,
其目的是根据所提供的数据集以最佳的准确性捕获和预测欺诈案件。例如,被提名为欺诈的案件,结果是非欺诈的案件,并不像预测为非欺诈的案件那么重要,结果却是。
为此,我想使用逻辑回归,神经网络和决策树进行比较(提供了工作)。每当我运行这些模型时,所有的准确率都接近100%,这肯定是不正确的。
我是新的快速挖掘和数据预处理,有人能告诉我,我应该朝哪个方向?
其目的是根据所提供的数据集以最佳的准确性捕获和预测欺诈案件。例如,被提名为欺诈的案件,结果是非欺诈的案件,并不像预测为非欺诈的案件那么重要,结果却是。
为此,我想使用逻辑回归,神经网络和决策树进行比较(提供了工作)。每当我运行这些模型时,所有的准确率都接近100%,这肯定是不正确的。
我是新的快速挖掘和数据预处理,有人能告诉我,我应该朝哪个方向?
0
答案
考虑到你的数据集是高度不平衡的(在你的数据集中,“非欺诈”案例比“欺诈”案例多得多)
这就是为什么模型很难建立你的特征和你的标签的少数类别(“欺诈”)之间的关系。
总之,该模型将你的所有交易都视为“非欺诈”,这就是为什么你的准确率接近100%。
我认为在你的情况下,一个更好的绩效指标是“阶级回忆”。你想要优先正确预测诈骗案件,不是吗?
为此,您必须通过增加“欺诈”案例的示例数量来增加初始数据集的样本
击杀Upsampling操作符。这样,就会增加班级对欺诈案的召回。
理想情况下,您可以在上采样操作符之后使用Auto-Model,并在“准备目标”屏幕上定义成本矩阵(通常您可以“量化”“假阴性”错误分类的成本和“假阳性”错误分类的成本)。
自动模型将被执行,以尽量减少错误分类的成本,并在罚款,以最大限度地提高收益…
希望这能帮到你,
问候,
莱昂内尔
谢谢
@StudentNeedsHelp
是的,如果没有自动建模,您可以使用性能(成本)操作人员首先量化FN和FP的成本,并计算错误分类的最终成本。
请查看附件中的过程,使用您的数据进行实验并了解....
希望这能帮到你,
问候,
莱昂内尔