解释文档中单词的TF-IDF分数的总和

LindsayKelevraLindsayKelevra 成员职位:5新手
2020年6月编辑 帮助
嗨,伙计们!在使用k-means对文档列表进行聚类之后,我想分析每个聚类中的单词(以便将它们与其他属性关联起来)。关于这个,我把每个单词的tf-idf的值加起来,但我认为这个解决方案可能是错误的。用词频会更正确吗?谢谢你的建议。

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3357年RM数据科学家
    你好,
    我不知道你到底在问什么?你能详细说一下吗?

    也许LDA适合你。它通常能更好地检测文本上的组。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • LindsayKelevraLindsayKelevra 成员职位:5新手
    嗨!我对每个记录包含一篇文章的属性进行聚类(k-means)。使用tf-idf后,现在我有了单词和相对频率的矩阵。现在我试着分析,对于每个簇,包含的单词。由于我有许多属性,是否有可能对每个单词的tf-idf频率求和?或者我想用平均值,这样更正确吗?
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3357年RM数据科学家
    这也适用于tf-idf。

    ~马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    从根本上说,您可能不希望添加TF-IDF值,因为它的设计本质上不是相加的(例如,它没有一致的缩放,因为它乘以了逆文档频率的对数)。
    如果您想直接使用word向量值,则应该使用固有的可加性指标之一,例如术语出现次数,这只是术语的原始计数,或者术语频率,这只是特定术语所涵盖的总术语的未调整百分比。
    但我也同意Martin的观点,这并不是理解集群最直观的方式。您可以使用他描述的一些方法,或者您也可以直接查看质心值(集群操作符的输出之一)并找到与另一个集群最不同的值(图形可视化对此很有帮助)。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
登录注册置评。