簇大小与质心表有什么关系?哪个模型更有意义?为什么?
NatalySimth
成员职位:8因素二世
在帮助
最佳答案
-
lionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1193年独角兽嗨@NatalySimth,
1.我所说的“容量”是指“数据点与质心的距离有多近”。
2.创造性能和肘部:
通过使用优化循环,您可以轻松创建这样的曲线优化参数而且集群距离性能操作符。
通过执行这样的进程,您将获得一个表在质心距离内平均根据k(集群数量):
然后你可以用系列类型图有:
-索引维度= k
- Plot Series =质心距离内的平均值。
得到如下曲线:
对于这个例子,我们可以发现拐点(肘部)是k = 4或k = 5。因此,这个用例的最佳簇数k是k = 4或k =5。
这篇文章使用的过程在附件文件中。
希望这有助于
问候,
莱昂内尔
PS:要了解集群的概念,你可以访问RapidMiner学院:有关于这个话题的有趣视频:
https://academy.www.turtlecreekpls.com/catalog?query=cluster
9
答案
在没有任何附加信息的情况下,要有一个大致的概念,你可以计算在质心距离内平均它衡量集群的“容量”。(比较两个模型)。
为此,你必须加一个性能(集群距离性能)操作符。
编辑:
我想更正/完成上面的解释:
假设您使用的是k -means算法,这是一种寻找最佳k(簇数(s))的方法,因此是最佳模型,根据“k”绘制“质心距离内的平均值”。你会得到这样的曲线(或在相反的方向,因为在RapidMiner质心距离内的平均值是负的):
最好的k,也就是更相关的模型与曲线的拐点相匹配。
希望这有助于
问候,
莱昂内尔
我怎样才能创造业绩和手肘?对所有这些方法来说仍然是新的。
欢迎你!
问候,
莱昂内尔
感谢你从上面给出的鼓舞人心的答案!从这个意义上说,应该也可以通过使用davis - bouldin指数来生成Ellbow来比较主要标准,对吗?
提前感谢你的回答!
的问候!
但是你能让我知道你是如何在rapidminer中得到惯性图的,因为它中的选项只有在质心和DB内的avg。
我想根据惯性准则画出它。请帮助