x均值的最小k值?

Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
亲爱的社区,

我的问题是这样的:x-means是否总是取给定k的最小值作为最优值?

我尝试了k-min=2和k-max=60之间的X-Means,以及k-min=20和k-max=60的数据。x均值模型每次给出k的最小值(第一次k=2,第二次k=20)x-Means总是取k的最小值,这正常吗?



最好的问候!

答案

  • mantanzmantanz 成员职位:8因素二世
    如果可能的话,请分享你的xml,并让我知道你的数据集中有多少个例子。

    如果你没有太多的聚类例子,或者它们彼此太相似,那么你所说的情况就会发生,所以x均值总是采用最简单的聚类方案。
    在这种情况下,最好事先对数据进行规范化。这将确保所有属性在应用算法之前达到相同的规模。
    例如,attribute1的数据范围为0-100,attribute2的向量范围为0-1。在这种情况下,attribute1的权重大于attribute2。但是如果你应用normalize,这两个属性将转换为0-1刻度。

    使用的Rapidminer操作符:“Normalize”
    lionelderkrikor
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    @mantanz

    谢谢你的回复。我尝试了“Normalize”操作符。但这无济于事。我得到了和之前一样的结果——因此,x均值算子再次选择了给定的k-min参数。我不知道这是否是x均值的“正常”行为。

    还有人有其他意见吗?

    最好的问候!
  • JEdwardJEdward RapidMiner认证分析师,RapidMiner认证专家,成员职位:578独角兽
    @Muhammed_Fatih_这取决于你的数据集。尝试不同的数据集(例如RM Studio中Samples文件夹中的Iris数据集),您将看到其中一些数据集将获得不同的X值。
    MartinLiebig
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    @JEdward

    谢谢你的回答。

    这是否意味着在相应的操作符中实施的X-means或更确切地说是AIC/BIC惩罚只能操作特定的数据集?“这真的取决于你的数据集”具体是什么意思?

    最好的问候!
登录注册置评。