高准确度，低召回率和低精度-如何优化这一点?

主 · 2022年2月

嗨,专家,

我有一个大约有40,000个数据的数据集，想做一个分类。我有一个二元标签(是/不是)。为了创建模型，我采用了一棵决策树。然后，我想通过操作符apply模型将创建的模型应用于训练数据集(30,000个数据)。

总的来说，我的准确率非常高，接近94%。但我的问题是，“no”类具有非常高的召回率(98%)和高精度(94%)。另一方面，“是”类的召回率为7%，准确率为19%。

我使用优化操作符(网格)。我还使用交叉验证作为子过程。此外，我使用性能操作符(分类)，我已经使用准确性和kappa作为主要标准。

我知道社区里已经有类似的问题了，但不幸的是他们还没有帮助我。

真的很期待你的帮助&感谢已经提前!

MartinLiebig · 2022年2月

你好,

首先我会考虑放弃决策树而尝试随机森林。你的决策树可能是一个小的，它主要预测“是”，只有在极少数情况下预测“否”。你偏向于样本中的大多数人。

之后，您可以考虑使用相应的阈值操作符来调优阈值。

BR,

马丁

快速链接