基于K-Medoids算法的文本聚类
puteri_prameswa
成员职位:3.贡献我
嗨!
我是RapidMiner的新手。我在Tripadvisor.com上有1000多条在线评论。我想用K-Medoids算法将这些评论聚类到k集群。之所以选择K-Medoids,是因为我想找到每个集群的“medoid”,我认为这个“medoid”能够代表整个集群的内容。我已经应用了一些节点,如:
-阅读Excel
—选择属性
-标称到文本
-从数据中处理文档(标记化,词干提取,停止词删除)
-以及集群节点本身
但我似乎找不到成比例的星团。从1000+数据与K = 2,集群1和集群2成员的比例为99:1。
请帮帮我!
0
答案
你好,
你试过使用吗
一)TF-IDF
B)余弦相似度作为距离度量
最好的
马丁
德国多特蒙德
我同意@mschmitz建议。然而,当使用k-means聚类算法时,并不能保证聚类的大小是相等的。该算法并不直接关注簇大小,而是关注簇内相似性与簇间相似性。您可能想尝试X-Means,它将测试大范围可能的k值,并根据BIC建议最佳值。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询