看起来你是新来的。登录或注册开始。
你好,
我想在我的数据集上尝试不同的聚类算法,如k-means、DBSCAN和aggregtive clustering,并比较结果,以选择“最好”的一个。为了验证基于质心的聚类,我知道有“聚类距离性能”和“聚类密度性能”算子。但是对于DBSCAN或聚集聚类的性能评估呢?我该怎么做呢?
对于这类问题,它们是否仍然类似于“快速挖掘-数据挖掘用例和业务分析应用”中使用的全球轮廓指数?
谢谢你的帮助。
好问题。我不知道全球轮廓指数,但与此同时,你确实有几个其他的选择。您可以将集群转换为标签,然后尝试使用预测建模算法对它们进行诊断,在这种情况下,“最佳”可能对应于使用简单分类器(如朴素贝叶斯或决策树)分离它们的能力。或者如果你已经有了标签(不是集群本身),那么你可以使用“标签上的地图集群”并做类似的事情。或者针对现有标签仅使用集群属性运行预测模型。
谢谢你的快速回复。
不幸的是,我没有任何标签。
所以你的建议是将集群解释为标签,然后使用一个决策树,将集群作为标签属性,对吗?但是有了这个,我怎么才能准确地知道哪个是最好的星团呢?我还没明白。
那么,我完全不确定在这种情况下,您所说的“最佳集群”是什么意思。如果你有一些方法给单个集群赋值(例如,你有一些其他的标签变量),那么你可以做我上面建议的。但是如果您没有外部标签,那么您只能根据(可能有许多不同的)输入属性来评估您的集群,您可以通过将您的集群作为标签,然后寻找将一个集群与其他集群区分开来的模式的差异来实现。但是我不确定在这种情况下如何决定哪个集群是最好的,因为我不知道一个集群比另一个集群“更好”意味着什么。但是,您可以通过查看哪种聚类方法产生的聚类最不同(基于将聚类转换为标签,然后评估用于预测聚类的模型的强度),从整体上对不同的聚类方法进行评估。
是的,对不起,我在帖子中使用的“最佳集群”这个词是错误的。我想评估不同的聚类方法并比较它们,但我还不明白如何评估用于预测聚类的模型的强度,例如,像你建议的那样使用决策树。
如果您使用集群作为标签,那么一旦您构建了一些预测模型,您就可以简单地使用模型性能的标准度量,例如ROC AUC、准确性、F1分数等。查看“性能(分类)”操作符,了解更多细节和许多不同的性能度量选项。
谢谢@Telcontar120-我也是这么想的。
@hana1你也可以考虑试试Davis-Bouldin指数如在集群距离性能算子在我看来,这似乎达到了一个类似的目的。
我也不知道全球轮廓指数……总是有新东西要学!
斯科特
但是我可以将Davies Bouldin索引也用于DBScan和aggregation Clustering吗?因为在纪录片中说距离性能只适用于基于质心的聚类。
答案
好问题。我不知道全球轮廓指数,但与此同时,你确实有几个其他的选择。您可以将集群转换为标签,然后尝试使用预测建模算法对它们进行诊断,在这种情况下,“最佳”可能对应于使用简单分类器(如朴素贝叶斯或决策树)分离它们的能力。或者如果你已经有了标签(不是集群本身),那么你可以使用“标签上的地图集群”并做类似的事情。或者针对现有标签仅使用集群属性运行预测模型。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
谢谢你的快速回复。
不幸的是,我没有任何标签。
所以你的建议是将集群解释为标签,然后使用一个决策树,将集群作为标签属性,对吗?但是有了这个,我怎么才能准确地知道哪个是最好的星团呢?我还没明白。
那么,我完全不确定在这种情况下,您所说的“最佳集群”是什么意思。如果你有一些方法给单个集群赋值(例如,你有一些其他的标签变量),那么你可以做我上面建议的。但是如果您没有外部标签,那么您只能根据(可能有许多不同的)输入属性来评估您的集群,您可以通过将您的集群作为标签,然后寻找将一个集群与其他集群区分开来的模式的差异来实现。但是我不确定在这种情况下如何决定哪个集群是最好的,因为我不知道一个集群比另一个集群“更好”意味着什么。但是,您可以通过查看哪种聚类方法产生的聚类最不同(基于将聚类转换为标签,然后评估用于预测聚类的模型的强度),从整体上对不同的聚类方法进行评估。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
是的,对不起,我在帖子中使用的“最佳集群”这个词是错误的。我想评估不同的聚类方法并比较它们,但我还不明白如何评估用于预测聚类的模型的强度,例如,像你建议的那样使用决策树。
如果您使用集群作为标签,那么一旦您构建了一些预测模型,您就可以简单地使用模型性能的标准度量,例如ROC AUC、准确性、F1分数等。查看“性能(分类)”操作符,了解更多细节和许多不同的性能度量选项。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
谢谢@Telcontar120-我也是这么想的。
@hana1你也可以考虑试试Davis-Bouldin指数如在集群距离性能算子在我看来,这似乎达到了一个类似的目的。
我也不知道全球轮廓指数……总是有新东西要学!
斯科特
但是我可以将Davies Bouldin索引也用于DBScan和aggregation Clustering吗?因为在纪录片中说距离性能只适用于基于质心的聚类。
提前感谢大家对社区的支持!