如何使用k-means和DBSCAN算法来执行精度和召回率?
你好,
我想在K-means和DBSCAN算法上执行精度/召回率方法。我为样本数据集添加了一个目标标签(Workaround)。由于标签上的地图聚类,我只能设置k=2。对于其他数字,它不起作用,因为它必须匹配标签的数量。在RM中有没有另一种方法可以在没有映射聚类的情况下对聚类算法执行精度/召回,这样我就可以玩k的数量了?
我希望有人能帮我。提前感谢
问候,
帕特里克
我想在K-means和DBSCAN算法上执行精度/召回率方法。我为样本数据集添加了一个目标标签(Workaround)。由于标签上的地图聚类,我只能设置k=2。对于其他数字,它不起作用,因为它必须匹配标签的数量。在RM中有没有另一种方法可以在没有映射聚类的情况下对聚类算法执行精度/召回,这样我就可以玩k的数量了?
我希望有人能帮我。提前感谢
问候,
帕特里克
标记:
0
最佳答案
-
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽为了获得有监督的机器学习性能指标,如精度或聚类等无监督机器学习方法的召回率,您需要将它们映射到标签上,以便将它们作为预测与已知实际状态进行评估。因此,如果您只有2个标签值,那么您只能有两个集群来使用“标签上的Map Clustering”操作符(因为它将这些集群视为标签值,因此它们可以被映射)。
理论上,您可以对两个以上的集群执行此操作,但是您需要手动将额外的集群映射到您的两个标签,因此最终您仍然只能有效地测量两个集群(或“超集群”,因为它们只是较小集群的组合)的性能。
或者你可以增加标签值的数量,所以如果你有三个标签值,那么你可以支持3个集群,等等。
1
答案
您总是可以自己设置属性的角色。用角色“label”设置一个属性,用角色“prediction”设置另一个属性,Performance就应该在示例集上工作。对于AUC等一些指标,它可能也需要信心。因此,您可能希望使用generate Attributes生成那些。
问候,
Balazs
尝试在k=2时重新运行k-means,然后进行聚类映射。这会让你得到你想要的性能指标。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询