选择非零值的列
大家好!
我用“从数据中处理文档”计算了TF-IDF,我发现了一个矩阵,每列都有一个单词,每行都有一个主体,矩阵的每个单元格都包含TF-IDF的值。现在我按集群过滤,用k.means创建,我只希望看到值非零的列。我首先想到的是对每列的值(Aggregate)求和,只取总和大于零的值,但我也认为TF-IDF和所有分析的总和都会扭曲,这是一个错误,所以你能告诉我一个解决方案,只过滤至少一个值与零不同的列吗?
非常感谢!
我用“从数据中处理文档”计算了TF-IDF,我发现了一个矩阵,每列都有一个单词,每行都有一个主体,矩阵的每个单元格都包含TF-IDF的值。现在我按集群过滤,用k.means创建,我只希望看到值非零的列。我首先想到的是对每列的值(Aggregate)求和,只取总和大于零的值,但我也认为TF-IDF和所有分析的总和都会扭曲,这是一个错误,所以你能告诉我一个解决方案,只过滤至少一个值与零不同的列吗?
非常感谢!
标记:
0
答案
如果不想使用这种方法,则需要遍历每个集群,使用Max函数执行Aggregation,并删除那些最大值为零的属性。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
谢谢你的回答!我找到了你建议的簇质心输出,但我不是很明白每个细胞的值,你能解释一下吗?我附上我的结果的屏幕。
我注意到你有很多簇。这有时会使解释变得困难,您可能还应该考虑是否需要这么多不同的集群。或者你可以尝试另一种超越k均值的方法,比如LDA分析。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
德国多特蒙德