如何使用k-means和DBSCAN算法来执行精度和召回率?

pvds90pvds90 成员职位:8学我
2020年1月编辑 帮助
你好,

我想在K-means和DBSCAN算法上执行精度/召回率方法。我为样本数据集添加了一个目标标签(Workaround)。由于标签上的地图聚类,我只能设置k=2。对于其他数字,它不起作用,因为它必须匹配标签的数量。在RM中有没有另一种方法可以在没有映射聚类的情况下对聚类算法执行精度/召回,这样我就可以玩k的数量了?

我希望有人能帮我。提前感谢

问候,
帕特里克

最佳答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    解决方案接受
    为了获得有监督的机器学习性能指标,如精度或聚类等无监督机器学习方法的召回率,您需要将它们映射到标签上,以便将它们作为预测与已知实际状态进行评估。因此,如果您只有2个标签值,那么您只能有两个集群来使用“标签上的Map Clustering”操作符(因为它将这些集群视为标签值,因此它们可以被映射)。

    理论上,您可以对两个以上的集群执行此操作,但是您需要手动将额外的集群映射到您的两个标签,因此最终您仍然只能有效地测量两个集群(或“超集群”,因为它们只是较小集群的组合)的性能。

    或者你可以增加标签值的数量,所以如果你有三个标签值,那么你可以支持3个集群,等等。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    pvds90

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:913独角兽
    你好,

    您总是可以自己设置属性的角色。用角色“label”设置一个属性,用角色“prediction”设置另一个属性,Performance就应该在示例集上工作。对于AUC等一些指标,它可能也需要信心。因此,您可能希望使用generate Attributes生成那些。

    问候,
    Balazs
    sgenzer
  • pvds90pvds90 成员职位:8学我
    2020年1月编辑
    嗨,Balazs@BalazsBarany,谢谢你的回答。这种情况下,集合中有15个属性,其中一个包含极端值date。这是我们的解决方案,这就是为什么我添加了一个布尔值的额外属性,如果它包含极端值日期。这个额外的属性就是目标标签。没有真正额外的“标签”需要,因为只有一个标签包含我正在寻找的解决方案(日期20999-01-01)。我不完全明白为什么要增加额外的角色?

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    要将集群映射到标签上,需要拥有与标签相同数量的集群。在上面的屏幕截图中,你得到的错误是因为你有2个标签值,但有3个集群。
    尝试在k=2时重新运行k-means,然后进行聚类映射。这会让你得到你想要的性能指标。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    sgenzer
  • pvds90pvds90 成员职位:8学我
    @Telcontar120我知道。当我用k=2运行它时,它正在工作,但是是否有另一种工作方式可以将k更改为其他值?现在感觉非常有限,因为它只能在k=2时运行。
    黄金
登录注册置评。