不平衡数据集的决策树算法

spitfire_chspitfire_ch 成员职位:38大师
2019年5月编辑 帮助
你好,

在我进行的几乎所有分析(直销领域)中,我面临的一个问题是数据的巨大不平衡。比如说,进行了一次市场营销活动。在1万名客户中,只有300人回应(如果我们幸运的话)。我现在的工作是找到一种模式,这将有助于决定在未来的活动中要解决哪些客户,所以,比方说,只有5000个客户需要解决,我们仍然会得到300个响应。

在使用决策树算法的方法中,可以使用“响应:真/假”之类的东西作为标签。显然,1万分之300是数据的巨大不平衡,到目前为止,我还没有设法从决策树中得到任何结论性的结果。大多数情况下,只有一个节点说:客户没有反应;)我们必须使用大量的过采样或欠采样。

我偶然发现了最近的一篇论文,他们开发了一种新的决策树算法,正好解决了这个问题。根据他们的说法,它比欠采样/过采样性能更好。我将把摘要贴在下面。全文可于以下网址免费下载:http://www.nd.edu/~dial/papers/SDM10.pdf
它还包含伪代码的算法。也许这将是Rapidminder的一个有趣的补充,以及过度和欠采样。

本文提出了一种新的决策树算法——类置信度决策树(CCPDT),该算法具有鲁棒性,对类的大小不敏感,并能生成具有统计显著性的规则。为了使决策树具有鲁棒性,我们首先根据规则的置信度表示C4.5中使用的度量信息增益。这让我们可以立即解释为什么信息获取,就像信心一样,会导致规则偏向大多数阶级。为了克服这种偏差,我们引入了一个新的度量,类别置信比例(CCP),它构成了CCPDT的基础。为了生成具有统计显著性的规则,我们设计了一种新颖有效的自顶向下和自底向上的方法,该方法使用Fisher精确检验来修剪树中不具有统计显著性的分支。这两种变化结合在一起,产生的分类器在统计上的表现不仅优于传统的决策树,而且优于从已知采样技术平衡的数据中学习的树。通过广泛的实验和与C4.5, CART, HDDT和SPARCCC的比较,我们的主张得到了证实。

非常感谢您的考虑,并致以最良好的问候
专员Hanspeter
标记:

答案

  • spitfire_chspitfire_ch 成员职位:38大师
    基于海灵格距离的决策树(HDDT)可能是另一种选择:

    http://videolectures.net/ecmlpkdd08_cieslak_ldtf/

    致以最亲切的问候
    专员Hanspeter
  • 黑线鳕黑线鳕 成员职位:849Maven
    你好,

    这里还有一些……

    http://www.google.fr/search?q=imbalanced+decision+tree

    一般来说,当我看到一个问题引发了这么多不同的答案时,我开始觉得它可能无法回答。D但幸运的是,在这种情况下,你有另一种选择——大概你会为此工作获得报酬,所以为什么不投资一些RapidMiner咨询公司呢http://rapid-i.com/content/view/3/76/lang,en/?我知道他们知道。
  • spitfire_chspitfire_ch 成员职位:38大师
    正如我已经在另一个线程中提到的,我只是使用这个问题来获得数据挖掘领域的一些实践。我在家里做这个,所以我的雇主不会愿意支付咨询费用。

    不平衡似乎是一个普遍的问题-这也支持你的谷歌查询。这就是为什么我想知道是否添加一个或两个算法到RapidMiner,可以潜在地以比已经实现的算法更好的方式处理这个问题,不会使RapidMiner受益。

    常见的问题需要某种解决方案:)

    通过将“生成权重(分层)”操作符与Weka ADTree算法相结合,我已经取得了一些成功。加权样例明显提高了算法处理不平衡的能力。但我很肯定,一些专门设计来处理这个问题的算法,会做得更好。

    这将扩大RapidMiner的应用范围。所以,这更像是一个建议……

    致以最亲切的问候
    专员Hanspeter
  • 黑线鳕黑线鳕 成员职位:849Maven
    你好,

    在Rapido获得更多的运营商之前,也许我们应该看看其他已经覆盖的渠道。例如,您可以尝试调整整个分类矩阵的感知成本和收益,使用MetaCost操作符,以及将其预处理为集群……可能性很多,时间又很短!



  • spitfire_chspitfire_ch 成员职位:38大师
    嗯,MetaCost操作员,我没有想到这个,但我正在寻找类似的东西!听起来很有希望,谢谢你的提示!

    致以最亲切的问候
    专员Hanspeter
登录注册置评。