聚类精度&如何选择适当数量的聚类

marou_mal96marou_mal96 成员职位:6新手
2020年12月编辑 帮助
你好!我有两个关于集群的问题。第一个是关于集群的数量,更具体地说Ι只有数值属性,我不知道k-means聚类的最佳集群是什么。另一个问题是,除了“标签上的地图聚类”之外,是否有任何方法可以执行我的准确性。

提前感谢!

最好的答案

  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    解决方案接受
    你需要做的是做一个实验。使用优化参数(网格)来改变k-means中的集群数量,并记录集群性能度量。在内部,你将需要k-means和一些集群性能,通常是Davis-Bouldin(最接近零是最好的),它可以从集群距离性能中获得,或者从集群分布性能中获得平方和。DB测量工作当你的属性数值和平滑(凸形状),当你收集的日志k vs DB表现情节并找到DB接近零,在理想的情况下顺利稳定的情节,这将是最优k左右。然而,DB经常失败,稳定性试验,在这种情况下,k vs平方和(平均距离集群中心)情节是一个非正式的方法,称为弯头的方法,当您寻找这样的k时,性能增益(最高SOS)与聚类复杂性(k)相比不再显着,它通常看起来像肘尖。
    marou_mal96
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    2020年12月编辑 解决方案接受
    我发现标签上的聚类映射是不可靠的,特别是当你的聚类不是很好的时候。一种类似的方法是结合k-means和k-nn来确定集群系统基于邻居距离“预测”集群的能力,并测量这一过程的准确性。然而,当你考虑到聚类中什么是重要的,即所有相似的数据点应该彼此接近(以及它们的聚类质心),远离不相似的数据点(以及其他聚类的质心),其他性能度量更合适。使用PCA将您的数据映射到2D,然后用集群的颜色绘制数据,以确定集群是内聚的还是分离的,这也是一个好主意。
    marou_mal96
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    解决方案接受
    还有一个警告:当你绘制集群性能时,确保你没有任何随机影响这个过程,例如集群算法受到集群质心初始位置的影响。那么设置任意一个带有随机元素的算子的随机种子。否则你将不知道聚类的改进是由于最优k还是随机效应。随机效应通常会在你的绘图中表现为上下之字形。
    marou_mal96
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    解决方案接受
    将其放在聚类之后,并将其应用于聚类示例(这可以是一个单独的过程),然后散点图PC1 vs PC2,并使用聚类作为颜色。您还可以使用extract cluster Prototypes从集群模型中提取质心的坐标,并将它们绘制在与其他数据点相同的PCA坐标系中(因此只需将PCA模型应用于质心并分别绘制它们)。通过这种方式,你可以看到星团中心是否很好地分开了。
    marou_mal96
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    2020年12月编辑 解决方案接受
    最后一个建议:保持k的实用性,因此,您可能更愿意找到一个范围内的最佳k,而不是找到集群数量的全局最优值。例如,如果你正在为营销活动进行客户细分,你可能负担不起超过10个单独的活动,所以如果最佳集群数量是76个,那么它是没有用的,但是如果最佳集群数量最多为10个是5个,那么它是实用的。
    marou_mal96
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    解决方案接受
    我要做的是使用聚类示例构建PCA,然后将得到的PCA模型应用于从聚类模型中提取的质心,这样PCA就建立在大量数据之上,更加可靠。
    marou_mal96
  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    2020年12月编辑 解决方案接受
    我不知道你的项目有多紧急,我计划继续录制我的YouTube视频(查看ironfrown),并可以在1月份在RapidMiner中录制一个关于聚类分析的迷你系列。同时,我强烈建议你去读Vijay Kotu和Bała Deshpande写的一本书,《数据科学:概念与实践第二版》,其中第7章描述了RapidMiner中的聚类分析(是乐鱼平台进入的,整本书都使用RapidMiner来解释不同的例子)。
    marou_mal96

答案

  • marou_mal96marou_mal96 成员职位:6新手
    如何使用PCA ?
    现在我有这个程序。我可以把PCA放在哪里?


  • marou_mal96marou_mal96 成员职位:6新手

    你觉得怎么样?
  • marou_mal96marou_mal96 成员职位:6新手
    集群3给了我最好的DB值
  • marou_mal96marou_mal96 成员职位:6新手
    有没有关于这个的教程或其他东西来帮助我创建你告诉我的?我是快速矿工的初学者,你说的很多我都听不懂。先生,再次感谢您的宝贵时间!
  • marou_mal96marou_mal96 成员职位:6新手
    非常感谢,先生!我很感激。圣诞快乐
登录注册置评。