选择最佳簇数

shiva1shiva1 成员职位:2贡献我
2018年12月编辑 帮助

111. png

我有这个图表查找最佳簇数基于戴维斯博尔丁指数和kmeans算法....我在这个图表中没有局部最小值,我应该选择7簇吗??为什么? ?如果没有局部最小值,我们该怎么做?

111. png 0 b

最佳答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    解决方案接受

    对于高维数据,很难知道集群的“最佳”数量是多少,并且对数据的视觉检查通常不起作用。除非您对特定的数字有先验偏好,否则您通常会在添加额外的集群和某些全局适应度度量(如DB指数)的边际改进之间寻找权衡,这通常被称为集群选择的“肘法”,如下所述:https://en.wikipedia.org/wiki/Elbow_method_(聚类)

    基于这个逻辑,我可能会从结果中选择k=7,因为添加额外集群的好处是最小的(因此在图中存在一个显著的拐点和斜率变化)。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    sgenzer

答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽

    @shiva1

    也许第一步是执行探索性数据分析,以直观地确定有多少个集群。(你

    图表面板,您可以图形化地表示数据。

    第二种方法是使用DBSCAN算子(另一种聚类方法),不需要

    拥有簇数k作为入口参数。

    我希望这些第一反应要素将是有用的。

    问候,

    莱昂内尔

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽

    @shiva1

    为了估计k的正确数量,我们可以使用贝叶斯信息准则(BIC)。

    我在著名的数据集“Iris”上测试了一个基于此标准的算法,其中包含3个类:

    算法得出的结论是正确的簇数是3,所以我认为这是相关的。

    所以我建议你,分享你的数据集以便在你的数据集上执行这个算法

    了解更多信息。

    祝大家2018年新年快乐!

    莱昂内尔

    sgenzer
  • shiva1shiva1 成员职位:2贡献我

    @lionelderkrikor

    谢谢

    但是我有文本数据和dbscan不是文本挖掘的好选择…因为它通常只转动一个星团

  • student_computestudent_compute 成员职位:73因素二世

    你好。对不起,我有个问题想问你
    如果在操作员的表现按距离
    选择最大化选项
    在这种情况下,根据第一个帖子图表
    K = 3是最佳值吗?
    这是更好的db与高价值?
    谢谢你问我问题

  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363RM数据科学家

    @student_compute

    “产生具有最小davis - bouldin指数的聚类集合的聚类算法被认为是最好的算法”——维基百科。

    Davies-Bouldin指数评估集群内的相似性和集群间的差异性。如果你认为这些是很好的标准,那就选戴维斯-博尔丁。

    我附加的过程是为K-means模型选择最佳K的优化,该模型返回K =3具有最低的D-B指数。您也可以尝试X-mean来获得优化的聚类。

    D-B指数在内部乘以-1以使其最大化。您可以忽略性能输出中的负号。

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 8.2.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    (电子邮件保护)" / >


    <过程扩展= " true " >


    < /操作符>


    “参数”<列表键= >
    <参数键= "集群。k“价值= "[2.0;20;19;线性]" / >
    < / >列表
    <过程扩展= " true " >




    < /操作符>












    Davies-Bouldin Index评估簇内相似性和簇间差异。如果你认为这些是很好的标准,那就选戴维斯-博尔丁。Silhouette Index测量每个数据点,它被分配到的集群的质心和属于另一个集群的最近的质心之间的距离。如果你认为这是一个很好的标准,那就选择剪影指数。我们怎么能说一个聚类质量度量是好的呢?可以从:https://www.researchgate.net/post/How_can_we_say_that_a_clustering_quality_measure_is_good。< / description>
    > < /过程
    找出k-means的最佳k
    < /操作符>


    运行x-means优化聚类
    < /操作符>











    > < /过程
    < /操作符>
    > < /过程
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    @shiva1

    为什么DBSCAN不是应用于文本数据的好选择?
    Jasmine_
登录注册置评。