选择非零值的列

ElenaVetElenaVet 成员职位:9学我
大家好!
我用“从数据中处理文档”计算了TF-IDF,我发现了一个矩阵,每列都有一个单词,每行都有一个主体,矩阵的每个单元格都包含TF-IDF的值。现在我按集群过滤,用k.means创建,我只希望看到值非零的列。我首先想到的是对每列的值(Aggregate)求和,只取总和大于零的值,但我也认为TF-IDF和所有分析的总和都会扭曲,这是一个错误,所以你能告诉我一个解决方案,只过滤至少一个值与零不同的列吗?
非常感谢!

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    你有没有试过查看群集质心的输出?这实际上是为每个属性提供每个集群的平均值。你应该能够更容易地过滤它。
    如果不想使用这种方法,则需要遍历每个集群,使用Max函数执行Aggregation,并删除那些最大值为零的属性。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    ElenaVet
  • ElenaVetElenaVet 成员职位:9学我
    @Telcontar120
    谢谢你的回答!我找到了你建议的簇质心输出,但我不是很明白每个细胞的值,你能解释一下吗?我附上我的结果的屏幕。
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    聚类质心显示每个属性的每个聚类的词向量度量的平均值(使用您选择的任何参数度量,例如TF-IDF)。例如,您可以看到,令牌“aapl”的值最高的集群是集群12。您可以使用它来通过排序和过滤来了解对于任何特定集群来说哪些属性是最主要的。如果愿意,还可以计算集群之间的差异。
    我注意到你有很多簇。这有时会使解释变得困难,您可能还应该考虑是否需要这么多不同的集群。或者你可以尝试另一种超越k均值的方法,比如LDA分析。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3336年RM数据科学家
    你好,
    再添加一个想法:操作符Extract Cluster Centroid为您提供了该表作为一个示例集。

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
登录注册置评。