解释文档中单词的TF-IDF分数的总和

LindsayKelevra · 2020年6月

嗨,伙计们!在使用k-means对文档列表进行聚类之后，我想分析每个聚类中的单词(以便将它们与其他属性关联起来)。关于这个，我把每个单词的tf-idf的值加起来，但我认为这个解决方案可能是错误的。用词频会更正确吗?谢谢你的建议。

MartinLiebig · 2020年6月

你好,

我不知道你到底在问什么?你能详细说一下吗?

也许LDA适合你。它通常能更好地检测文本上的组。

最好的

马丁

LindsayKelevra · 2020年6月

嗨！我对每个记录包含一篇文章的属性进行聚类(k-means)。使用tf-idf后，现在我有了单词和相对频率的矩阵。现在我试着分析，对于每个簇，包含的单词。由于我有许多属性，是否有可能对每个单词的tf-idf频率求和?或者我想用平均值，这样更正确吗?

MartinLiebig · 2020年6月

嗨@LindsayKelevra，

我通常是这样理解我的集群的:https://towardsdatascience.com/understanding-clustering-cf0117148ef4#b7ae

这也适用于tf-idf。

~马丁

Telcontar120 · 2020年6月

从根本上说，您可能不希望添加TF-IDF值，因为它的设计本质上不是相加的(例如，它没有一致的缩放，因为它乘以了逆文档频率的对数)。
如果您想直接使用word向量值，则应该使用固有的可加性指标之一，例如术语出现次数，这只是术语的原始计数，或者术语频率，这只是特定术语所涵盖的总术语的未调整百分比。
但我也同意Martin的观点，这并不是理解集群最直观的方式。您可以使用他描述的一些方法，或者您也可以直接查看质心值(集群操作符的输出之一)并找到与另一个集群最不同的值(图形可视化对此很有帮助)。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

解释文档中单词的TF-IDF分数的总和

答案