解释文档中单词的TF-IDF分数的总和
LindsayKelevra
成员职位:5新手
嗨,伙计们!在使用k-means对文档列表进行聚类之后,我想分析每个聚类中的单词(以便将它们与其他属性关联起来)。关于这个,我把每个单词的tf-idf的值加起来,但我认为这个解决方案可能是错误的。用词频会更正确吗?谢谢你的建议。
0
答案
德国多特蒙德
德国多特蒙德
如果您想直接使用word向量值,则应该使用固有的可加性指标之一,例如术语出现次数,这只是术语的原始计数,或者术语频率,这只是特定术语所涵盖的总术语的未调整百分比。
但我也同意Martin的观点,这并不是理解集群最直观的方式。您可以使用他描述的一些方法,或者您也可以直接查看质心值(集群操作符的输出之一)并找到与另一个集群最不同的值(图形可视化对此很有帮助)。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询