模糊c均值的最优聚类数

farzanefarzane 成员职位:6学我
2020年8月编辑 帮助

我使用模糊c-means对一些文本数据进行聚类。如何找到最优的簇数?intar_cluster_distance是一个很好的度量吗?
标记:
endirizalf

答案

  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    2020年8月编辑
    我假设你说的是模糊c -均值算子从信息选择扩展?找到最优k的关键是创建一个优化循环,例如使用优化参数(Grid),它可以根据某些性能度量改变集群数量。

    如果您只对最终的集群分配感兴趣,那么我们为您提供了许多可能的解决方案。然而,由于模糊C-Means不返回质心表(如k-Means),您将无法使用聚类距离性能的Davis-Bouldin测量。然而,你可以依靠常用的项目分布性能(例如平方和度量),并将其与k进行对比,使用“肘形法”找到“最佳”集群数。或者,您可以使用数据相似度和集群密度性能的组合来优化平均集群密度。

    但是请注意,使用模糊C-Means的整体思想是利用每个集群中示例的模糊隶属度。如果目的是考虑所有可能的集群成员,那么在RapidMiner中没有明显的性能度量,您可以通过使用集群成员置信因子权衡不同的集群性能指标来创建自己的度量。

    信息选择扩展还提供了两种值得研究的性能算子——一种是计算簇内距离方差,遗憾的是它没有考虑模糊簇隶属度。

    雅各
    farzane
  • farzanefarzane 成员职位:6学我
    @jacobcybulski
    非常感谢。问题已经解决了:)
  • endirizalfendirizalf 成员职位:1贡献我
    你好,@farzane
    你用了哪种解决方案?你能给我解释一下吗?

    你可以在讨论中提到我,或者发邮件到我的邮箱(电子邮件保护)

    谢谢你的帮助

    Endirizalf

登录注册置评。