x均值的最小k值?
Muhammed_Fatih_
成员职位:93Maven
在帮助
亲爱的社区,
我的问题是这样的:x-means是否总是取给定k的最小值作为最优值?
我尝试了k-min=2和k-max=60之间的X-Means,以及k-min=20和k-max=60的数据。x均值模型每次给出k的最小值(第一次k=2,第二次k=20)x-Means总是取k的最小值,这正常吗?
最好的问候!
我的问题是这样的:x-means是否总是取给定k的最小值作为最优值?
我尝试了k-min=2和k-max=60之间的X-Means,以及k-min=20和k-max=60的数据。x均值模型每次给出k的最小值(第一次k=2,第二次k=20)x-Means总是取k的最小值,这正常吗?
最好的问候!
标记:
0
答案
如果你没有太多的聚类例子,或者它们彼此太相似,那么你所说的情况就会发生,所以x均值总是采用最简单的聚类方案。
在这种情况下,最好事先对数据进行规范化。这将确保所有属性在应用算法之前达到相同的规模。
例如,attribute1的数据范围为0-100,attribute2的向量范围为0-1。在这种情况下,attribute1的权重大于attribute2。但是如果你应用normalize,这两个属性将转换为0-1刻度。
使用的Rapidminer操作符:“Normalize”
谢谢你的回复。我尝试了“Normalize”操作符。但这无济于事。我得到了和之前一样的结果——因此,x均值算子再次选择了给定的k-min参数。我不知道这是否是x均值的“正常”行为。
还有人有其他意见吗?
最好的问候!
谢谢你的回答。
这是否意味着在相应的操作符中实施的X-means或更确切地说是AIC/BIC惩罚只能操作特定的数据集?“这真的取决于你的数据集”具体是什么意思?
最好的问候!