高准确度,低召回率和低精度-如何优化这一点?

主 成员职位:1新手
嗨,专家,

我有一个大约有40,000个数据的数据集,想做一个分类。我有一个二元标签(是/不是)。为了创建模型,我采用了一棵决策树。然后,我想通过操作符apply模型将创建的模型应用于训练数据集(30,000个数据)。

总的来说,我的准确率非常高,接近94%。但我的问题是,“no”类具有非常高的召回率(98%)和高精度(94%)。另一方面,“是”类的召回率为7%,准确率为19%。

我使用优化操作符(网格)。我还使用交叉验证作为子过程。此外,我使用性能操作符(分类),我已经使用准确性和kappa作为主要标准。

我知道社区里已经有类似的问题了,但不幸的是他们还没有帮助我。

真的很期待你的帮助&感谢已经提前!
标记:

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3316年RM数据科学家
    你好,
    首先我会考虑放弃决策树而尝试随机森林。你的决策树可能是一个小的,它主要预测“是”,只有在极少数情况下预测“否”。你偏向于样本中的大多数人。

    之后,您可以考虑使用相应的阈值操作符来调优阈值。

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
登录注册置评。