选择非零值的列

ElenaVet · 2020年6月

大家好!
我用“从数据中处理文档”计算了TF-IDF，我发现了一个矩阵，每列都有一个单词，每行都有一个主体，矩阵的每个单元格都包含TF-IDF的值。现在我按集群过滤，用k.means创建，我只希望看到值非零的列。我首先想到的是对每列的值(Aggregate)求和，只取总和大于零的值，但我也认为TF-IDF和所有分析的总和都会扭曲，这是一个错误，所以你能告诉我一个解决方案，只过滤至少一个值与零不同的列吗?
非常感谢!

Telcontar120 · 2020年6月

你有没有试过查看群集质心的输出?这实际上是为每个属性提供每个集群的平均值。你应该能够更容易地过滤它。
如果不想使用这种方法，则需要遍历每个集群，使用Max函数执行Aggregation，并删除那些最大值为零的属性。

ElenaVet · 2020年6月

嗨@Telcontar120
谢谢你的回答!我找到了你建议的簇质心输出，但我不是很明白每个细胞的值，你能解释一下吗?我附上我的结果的屏幕。

Image: https://us.v-cdn.net/6030995/uploads/editor/3a/wzbx60y89njl.jpg

Telcontar120 · 2020年6月

聚类质心显示每个属性的每个聚类的词向量度量的平均值(使用您选择的任何参数度量，例如TF-IDF)。例如，您可以看到，令牌“aapl”的值最高的集群是集群12。您可以使用它来通过排序和过滤来了解对于任何特定集群来说哪些属性是最主要的。如果愿意，还可以计算集群之间的差异。
我注意到你有很多簇。这有时会使解释变得困难，您可能还应该考虑是否需要这么多不同的集群。或者你可以尝试另一种超越k均值的方法，比如LDA分析。

MartinLiebig · 2020年6月

你好,

再添加一个想法:操作符Extract Cluster Centroid为您提供了该表作为一个示例集。

欢呼,

马丁

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

选择非零值的列

答案