文本数据的K-means聚类

joen841030 · 2019年11月

专家您好!

我想用文本数据做k均值聚类。我的数据保存在一个excel文件中。它只有一列，每个单元格中只有一个单词。不确定我是否做得正确(附图)，因为输出如下所示，集群3有4889项??

集群0:20个项目
集群1:18项
集群2:20个项目
集群3:4889个条目
集群4:20个项目
集群5:10个项目
集群6:10项
集群7:10项
项目总数:4997

Image: https://us.v-cdn.net/6030995/uploads/editor/89/5rhn66xvmsgn.png

另外，我想知道是否可以使用像剪影分数这样的东西来定义理想的聚类数量?谢谢你! !

lionelderkrikor · 2019年11月

嗨@joen841030，

不,centroid_distance_cluster内的平均值不受-1和+1之间的限制。
的centroid_distance_cluster内的平均值是距离的度量，例如数值属性的欧几里得距离，
在簇i的点和簇i的质心之间。所以这个值量化了簇的“紧凑”/“密集”。这个指标的值可以在0到+∞之间，但在RapidMiner的情况下，在-∞到0之间，因为指标乘以- 1，因为RapidMiner试图最大化这个指标。

这里有一个关于集群距离内平均的资源:

https://rapidminernotes.blogspot.com/2011/04/how-average-within-cluster-distance-is.html

希望这能有所帮助，

问候,

莱昂内尔

lionelderkrikor · 2019年11月

嗨@joen841030，

您可以在这里找到一种方法来找到最优的簇数k，基于的计算质心距离内的平均值根据K(簇数):

https://community.www.turtlecreekpls.com/discussion/comment/61654#Comment_61654

希望这能有所帮助，

问候,

莱昂内尔

joen841030 · 2019年11月

嗨@lionelderkrikor，
谢谢你的回复!嗯…但现在我得到了如下的结果。但在我看来，这似乎不正确……

PerformanceVector:
质心距离内平均:-385.889
质心内平均距离:-393.196
质心内平均距离:-351.386
质心内平均距离:-410.075
质心内平均距离:-384.852
质心距离内平均值:-403.787
质心内平均距离:-371.171
质心内平均距离:-366.001
质心内平均距离:-402.358
Davies Bouldin: -0.500

现在我还加上了“从名义到数字”……我做对了吗?我只是跟随不同的在线教程，并试图弄清楚如何做到这一点……

提前谢谢你!

Image: https://us.v-cdn.net/6030995/uploads/editor/70/5aquo37sbqok.png

lionelderkrikor · 2019年11月

嗨@joen841030，

你为什么认为这些结果是不正确的?

问候,

莱昂内尔

joen841030 · 2019年11月

嗨@lionelderkrikor，
嗯，因为我假设这个值应该在-1到+1之间?抱歉，我看不懂这些数字…如果你能解释一下就太好了。谢谢!

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

文本数据的K-means聚类

最佳答案

答案