x均值的最小k值?

Muhammed_Fatih_ · 2020年5月

亲爱的社区,

我的问题是这样的:x-means是否总是取给定k的最小值作为最优值?

我尝试了k-min=2和k-max=60之间的X-Means，以及k-min=20和k-max=60的数据。x均值模型每次给出k的最小值(第一次k=2，第二次k=20)x-Means总是取k的最小值，这正常吗?

Image: https://us.v-cdn.net/6030995/uploads/editor/si/4fv0ojpckc8j.jpg

最好的问候!

mantanz · 2020年5月

如果可能的话，请分享你的xml，并让我知道你的数据集中有多少个例子。

如果你没有太多的聚类例子，或者它们彼此太相似，那么你所说的情况就会发生，所以x均值总是采用最简单的聚类方案。
在这种情况下，最好事先对数据进行规范化。这将确保所有属性在应用算法之前达到相同的规模。
例如，attribute1的数据范围为0-100,attribute2的向量范围为0-1。在这种情况下，attribute1的权重大于attribute2。但是如果你应用normalize，这两个属性将转换为0-1刻度。

使用的Rapidminer操作符:“Normalize”

Muhammed_Fatih_ · 2020年5月

嗨@mantanz，

谢谢你的回复。我尝试了“Normalize”操作符。但这无济于事。我得到了和之前一样的结果——因此，x均值算子再次选择了给定的k-min参数。我不知道这是否是x均值的“正常”行为。

还有人有其他意见吗?

最好的问候!

JEdward · 2020年5月

@Muhammed_Fatih_这取决于你的数据集。尝试不同的数据集(例如RM Studio中Samples文件夹中的Iris数据集)，您将看到其中一些数据集将获得不同的X值。

Muhammed_Fatih_ · 2020年5月

@JEdward

谢谢你的回答。

这是否意味着在相应的操作符中实施的X-means或更确切地说是AIC/BIC惩罚只能操作特定的数据集?“这真的取决于你的数据集”具体是什么意思?

最好的问候!

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

x均值的最小k值?

答案