不平衡数据集的决策树算法

spitfire_ch · 2011年1月

你好,

在我进行的几乎所有分析(直销领域)中，我面临的一个问题是数据的巨大不平衡。比如说，进行了一次市场营销活动。在1万名客户中，只有300人回应(如果我们幸运的话)。我现在的工作是找到一种模式，这将有助于决定在未来的活动中要解决哪些客户，所以，比方说，只有5000个客户需要解决，我们仍然会得到300个响应。

在使用决策树算法的方法中，可以使用“响应:真/假”之类的东西作为标签。显然，1万分之300是数据的巨大不平衡，到目前为止，我还没有设法从决策树中得到任何结论性的结果。大多数情况下，只有一个节点说:客户没有反应

我们必须使用大量的过采样或欠采样。

我偶然发现了最近的一篇论文，他们开发了一种新的决策树算法，正好解决了这个问题。根据他们的说法，它比欠采样/过采样性能更好。我将把摘要贴在下面。全文可于以下网址免费下载:http://www.nd.edu/~dial/papers/SDM10.pdf
它还包含伪代码的算法。也许这将是Rapidminder的一个有趣的补充，以及过度和欠采样。

本文提出了一种新的决策树算法——类置信度决策树(CCPDT)，该算法具有鲁棒性，对类的大小不敏感，并能生成具有统计显著性的规则。为了使决策树具有鲁棒性，我们首先根据规则的置信度表示C4.5中使用的度量信息增益。这让我们可以立即解释为什么信息获取，就像信心一样，会导致规则偏向大多数阶级。为了克服这种偏差，我们引入了一个新的度量，类别置信比例(CCP)，它构成了CCPDT的基础。为了生成具有统计显著性的规则，我们设计了一种新颖有效的自顶向下和自底向上的方法，该方法使用Fisher精确检验来修剪树中不具有统计显著性的分支。这两种变化结合在一起，产生的分类器在统计上的表现不仅优于传统的决策树，而且优于从已知采样技术平衡的数据中学习的树。通过广泛的实验和与C4.5, CART, HDDT和SPARCCC的比较，我们的主张得到了证实。

非常感谢您的考虑，并致以最良好的问候
专员Hanspeter

spitfire_ch · 2011年1月

基于海灵格距离的决策树(HDDT)可能是另一种选择:

http://videolectures.net/ecmlpkdd08_cieslak_ldtf/

致以最亲切的问候
专员Hanspeter

黑线鳕 · 2011年1月

你好,

这里还有一些……

http://www.google.fr/search?q=imbalanced+decision+tree

一般来说，当我看到一个问题引发了这么多不同的答案时，我开始觉得它可能无法回答。D但幸运的是，在这种情况下，你有另一种选择——大概你会为此工作获得报酬，所以为什么不投资一些RapidMiner咨询公司呢http://rapid-i.com/content/view/3/76/lang,en/？我知道他们知道。

spitfire_ch · 2011年1月

正如我已经在另一个线程中提到的，我只是使用这个问题来获得数据挖掘领域的一些实践。我在家里做这个，所以我的雇主不会愿意支付咨询费用。

不平衡似乎是一个普遍的问题-这也支持你的谷歌查询。这就是为什么我想知道是否添加一个或两个算法到RapidMiner，可以潜在地以比已经实现的算法更好的方式处理这个问题，不会使RapidMiner受益。

常见的问题需要某种解决方案

通过将“生成权重(分层)”操作符与Weka ADTree算法相结合，我已经取得了一些成功。加权样例明显提高了算法处理不平衡的能力。但我很肯定，一些专门设计来处理这个问题的算法，会做得更好。

这将扩大RapidMiner的应用范围。所以，这更像是一个建议……

致以最亲切的问候
专员Hanspeter

黑线鳕 · 2011年1月

你好,

在Rapido获得更多的运营商之前，也许我们应该看看其他已经覆盖的渠道。例如，您可以尝试调整整个分类矩阵的感知成本和收益，使用MetaCost操作符，以及将其预处理为集群……可能性很多，时间又很短!

spitfire_ch · 2011年1月

嗯，MetaCost操作员，我没有想到这个，但我正在寻找类似的东西!听起来很有希望，谢谢你的提示!

致以最亲切的问候
专员Hanspeter

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

不平衡数据集的决策树算法

答案