选择最佳簇数
嗨
我有这个图表查找最佳簇数基于戴维斯博尔丁指数和kmeans算法....我在这个图表中没有局部最小值,我应该选择7簇吗??为什么? ?如果没有局部最小值,我们该怎么做?
标记:
0
最佳答案
-
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
对于高维数据,很难知道集群的“最佳”数量是多少,并且对数据的视觉检查通常不起作用。除非您对特定的数字有先验偏好,否则您通常会在添加额外的集群和某些全局适应度度量(如DB指数)的边际改进之间寻找权衡,这通常被称为集群选择的“肘法”,如下所述:https://en.wikipedia.org/wiki/Elbow_method_(聚类)
基于这个逻辑,我可能会从结果中选择k=7,因为添加额外集群的好处是最小的(因此在图中存在一个显著的拐点和斜率变化)。
1
答案
嗨@shiva1,
也许第一步是执行探索性数据分析,以直观地确定有多少个集群。(你
去图表面板,您可以图形化地表示数据。
第二种方法是使用DBSCAN算子(另一种聚类方法),不需要
拥有簇数k作为入口参数。
我希望这些第一反应要素将是有用的。
问候,
莱昂内尔
嗨@shiva1,
为了估计k的正确数量,我们可以使用贝叶斯信息准则(BIC)。
我在著名的数据集“Iris”上测试了一个基于此标准的算法,其中包含3个类:
算法得出的结论是正确的簇数是3,所以我认为这是相关的。
所以我建议你,分享你的数据集以便在你的数据集上执行这个算法
了解更多信息。
祝大家2018年新年快乐!
莱昂内尔
嗨@lionelderkrikor
谢谢
但是我有文本数据和dbscan不是文本挖掘的好选择…因为它通常只转动一个星团
你好。对不起,我有个问题想问你
如果在操作员的表现按距离
选择最大化选项
在这种情况下,根据第一个帖子图表
K = 3是最佳值吗?
这是更好的db与高价值?
谢谢你问我问题
嗨@student_compute
“产生具有最小davis - bouldin指数的聚类集合的聚类算法被认为是最好的算法”——维基百科。
Davies-Bouldin指数评估集群内的相似性和集群间的差异性。如果你认为这些是很好的标准,那就选戴维斯-博尔丁。
我附加的过程是为K-means模型选择最佳K的优化,该模型返回K =3具有最低的D-B指数。您也可以尝试X-mean来获得优化的聚类。
D-B指数在内部乘以-1以使其最大化。您可以忽略性能输出中的负号。
为什么DBSCAN不是应用于文本数据的好选择?