基于K-Medoids算法的文本聚类

puteri_prameswaputeri_prameswa 成员职位:3.贡献我
2018年11月编辑 帮助

嗨!

我是RapidMiner的新手。我在Tripadvisor.com上有1000多条在线评论。我想用K-Medoids算法将这些评论聚类到k集群。之所以选择K-Medoids,是因为我想找到每个集群的“medoid”,我认为这个“medoid”能够代表整个集群的内容。我已经应用了一些节点,如:

-阅读Excel

—选择属性

-标称到文本

-从数据中处理文档(标记化,词干提取,停止词删除)

-以及集群节点本身

但我似乎找不到成比例的星团。从1000+数据与K = 2,集群1和集群2成员的比例为99:1。

请帮帮我!

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家

    你好,

    你试过使用吗

    一)TF-IDF

    B)余弦相似度作为距离度量

    最好的

    马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Telcontar120
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    我同意@mschmitz建议。然而,当使用k-means聚类算法时,并不能保证聚类的大小是相等的。该算法并不直接关注簇大小,而是关注簇内相似性与簇间相似性。您可能想尝试X-Means,它将测试大范围可能的k值,并根据BIC建议最佳值。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    Thomas_Ott
登录注册置评。