集群性能DBScan和聚合集群

hana1hana1 成员职位:6因素二世
2018年12月编辑 帮助

你好,

我想在我的数据集上尝试不同的聚类算法,如k-means、DBSCAN和aggregtive clustering,并比较结果,以选择“最好”的一个。为了验证基于质心的聚类,我知道有“聚类距离性能”和“聚类密度性能”算子。但是对于DBSCAN或聚集聚类的性能评估呢?我该怎么做呢?

对于这类问题,它们是否仍然类似于“快速挖掘-数据挖掘用例和业务分析应用”中使用的全球轮廓指数?

谢谢你的帮助。

标记:

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    好问题。我不知道全球轮廓指数,但与此同时,你确实有几个其他的选择。您可以将集群转换为标签,然后尝试使用预测建模算法对它们进行诊断,在这种情况下,“最佳”可能对应于使用简单分类器(如朴素贝叶斯或决策树)分离它们的能力。或者如果你已经有了标签(不是集群本身),那么你可以使用“标签上的地图集群”并做类似的事情。或者针对现有标签仅使用集群属性运行预测模型。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • hana1hana1 成员职位:6因素二世

    谢谢你的快速回复。

    不幸的是,我没有任何标签。

    所以你的建议是将集群解释为标签,然后使用一个决策树,将集群作为标签属性,对吗?但是有了这个,我怎么才能准确地知道哪个是最好的星团呢?我还没明白。

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    那么,我完全不确定在这种情况下,您所说的“最佳集群”是什么意思。如果你有一些方法给单个集群赋值(例如,你有一些其他的标签变量),那么你可以做我上面建议的。但是如果您没有外部标签,那么您只能根据(可能有许多不同的)输入属性来评估您的集群,您可以通过将您的集群作为标签,然后寻找将一个集群与其他集群区分开来的模式的差异来实现。但是我不确定在这种情况下如何决定哪个集群是最好的,因为我不知道一个集群比另一个集群“更好”意味着什么。但是,您可以通过查看哪种聚类方法产生的聚类最不同(基于将聚类转换为标签,然后评估用于预测聚类的模型的强度),从整体上对不同的聚类方法进行评估。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • hana1hana1 成员职位:6因素二世

    是的,对不起,我在帖子中使用的“最佳集群”这个词是错误的。我想评估不同的聚类方法并比较它们,但我还不明白如何评估用于预测聚类的模型的强度,例如,像你建议的那样使用决策树。

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    如果您使用集群作为标签,那么一旦您构建了一些预测模型,您就可以简单地使用模型性能的标准度量,例如ROC AUC、准确性、F1分数等。查看“性能(分类)”操作符,了解更多细节和许多不同的性能度量选项。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理

    谢谢@Telcontar120-我也是这么想的。:)

    @hana1你也可以考虑试试Davis-Bouldin指数如在集群距离性能算子在我看来,这似乎达到了一个类似的目的。

    我也不知道全球轮廓指数……总是有新东西要学!

    斯科特

  • hana1hana1 成员职位:6因素二世

    但是我可以将Davies Bouldin索引也用于DBScan和aggregation Clustering吗?因为在纪录片中说距离性能只适用于基于质心的聚类。

    Muhammed_Fatih_
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    @hana1非常好的问题!DB-index可以应用于像DBSCAN这样基于密度的方法吗@sgenzer

    提前感谢大家对社区的支持!
登录注册置评。