文本数据的K-means聚类

joen841030joen841030 成员职位:8因素二世
2019年11月编辑 帮助
专家您好!

我想用文本数据做k均值聚类。我的数据保存在一个excel文件中。它只有一列,每个单元格中只有一个单词。不确定我是否做得正确(附图),因为输出如下所示,集群3有4889项??

集群0:20个项目
集群1:18项
集群2:20个项目
集群3:4889个条目
集群4:20个项目
集群5:10个项目
集群6:10项
集群7:10项
项目总数:4997



另外,我想知道是否可以使用像剪影分数这样的东西来定义理想的聚类数量?谢谢你! !

最佳答案

答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @joen841030

    您可以在这里找到一种方法来找到最优的簇数k,基于的计算质心距离内的平均值根据K(簇数):

    https://community.www.turtlecreekpls.com/discussion/comment/61654#Comment_61654

    希望这能有所帮助,

    问候,

    莱昂内尔
  • joen841030joen841030 成员职位:8因素二世
    @lionelderkrikor
    谢谢你的回复!嗯…但现在我得到了如下的结果。但在我看来,这似乎不正确……

    PerformanceVector:
    质心距离内平均:-385.889
    质心内平均距离:-393.196
    质心内平均距离:-351.386
    质心内平均距离:-410.075
    质心内平均距离:-384.852
    质心距离内平均值:-403.787
    质心内平均距离:-371.171
    质心内平均距离:-366.001
    质心内平均距离:-402.358
    Davies Bouldin: -0.500

    现在我还加上了“从名义到数字”……我做对了吗?我只是跟随不同的在线教程,并试图弄清楚如何做到这一点……

    提前谢谢你!




  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @joen841030

    你为什么认为这些结果是不正确的?

    问候,

    莱昂内尔
  • joen841030joen841030 成员职位:8因素二世
    @lionelderkrikor
    嗯,因为我假设这个值应该在-1到+1之间?抱歉,我看不懂这些数字…如果你能解释一下就太好了。谢谢!
登录注册置评。