文本数据的K-means聚类
joen841030
成员职位:8因素二世
专家您好!
我想用文本数据做k均值聚类。我的数据保存在一个excel文件中。它只有一列,每个单元格中只有一个单词。不确定我是否做得正确(附图),因为输出如下所示,集群3有4889项??
集群0:20个项目
集群1:18项
集群2:20个项目
集群3:4889个条目
集群4:20个项目
集群5:10个项目
集群6:10项
集群7:10项
项目总数:4997
另外,我想知道是否可以使用像剪影分数这样的东西来定义理想的聚类数量?谢谢你! !
我想用文本数据做k均值聚类。我的数据保存在一个excel文件中。它只有一列,每个单元格中只有一个单词。不确定我是否做得正确(附图),因为输出如下所示,集群3有4889项??
集群0:20个项目
集群1:18项
集群2:20个项目
集群3:4889个条目
集群4:20个项目
集群5:10个项目
集群6:10项
集群7:10项
项目总数:4997
另外,我想知道是否可以使用像剪影分数这样的东西来定义理想的聚类数量?谢谢你! !
标记:
0
最佳答案
-
lionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽嗨@joen841030,
不,centroid_distance_cluster内的平均值不受-1和+1之间的限制。
的centroid_distance_cluster内的平均值是距离的度量,例如数值属性的欧几里得距离,
在簇i的点和簇i的质心之间。所以这个值量化了簇的“紧凑”/“密集”。这个指标的值可以在0到+∞之间,但在RapidMiner的情况下,在-∞到0之间,因为指标乘以- 1,因为RapidMiner试图最大化这个指标。
这里有一个关于集群距离内平均的资源:
https://rapidminernotes.blogspot.com/2011/04/how-average-within-cluster-distance-is.html
希望这能有所帮助,
问候,
莱昂内尔
7
答案
您可以在这里找到一种方法来找到最优的簇数k,基于的计算质心距离内的平均值根据K(簇数):
https://community.www.turtlecreekpls.com/discussion/comment/61654#Comment_61654
希望这能有所帮助,
问候,
莱昂内尔
谢谢你的回复!嗯…但现在我得到了如下的结果。但在我看来,这似乎不正确……
PerformanceVector:
质心距离内平均:-385.889
质心内平均距离:-393.196
质心内平均距离:-351.386
质心内平均距离:-410.075
质心内平均距离:-384.852
质心距离内平均值:-403.787
质心内平均距离:-371.171
质心内平均距离:-366.001
质心内平均距离:-402.358
Davies Bouldin: -0.500
现在我还加上了“从名义到数字”……我做对了吗?我只是跟随不同的在线教程,并试图弄清楚如何做到这一点……
提前谢谢你!
你为什么认为这些结果是不正确的?
问候,
莱昂内尔
嗯,因为我假设这个值应该在-1到+1之间?抱歉,我看不懂这些数字…如果你能解释一下就太好了。谢谢!