登录
注册
乐鱼官网手机版下载
解决方案
乐鱼体育安装
定价
合作伙伴
公司
你好,陌生人!
看起来你是新来的。登录或注册开始。
使用RapidMiner登录
使用RapidMiner登录
登录
注册
快速链接
类别
最近的讨论
最好的…
没有回答
组
类别
17.4 k
所有类别
19.5 k
帮助
442
知识库
Altair RapidMiner社区
得到帮助。学习最佳实践。与你的同事建立联系。
讨论
解释文档中单词的TF-IDF分数的总和
作者
日期内
1天
3天
1周
2周
1个月
2个月
6个月
1年
的
例如:周一,今天,上周,3月26日,3/26/04
搜索
0评论
0的讨论
0成员
0在线
问一个问题
寻找有用的视频
首页
;
帮助
解释文档中单词的TF-IDF分数的总和
LindsayKelevra
成员
职位:
5
新手
2020年6月
2020年6月编辑
在
帮助
嗨,伙计们!在使用k-means对文档列表进行聚类之后,我想分析每个聚类中的单词(以便将它们与其他属性关联起来)。关于这个,我把每个单词的tf-idf的值加起来,但我认为这个解决方案可能是错误的。用词频会更正确吗?谢谢你的建议。
标记:
聚类
k - means聚类
文本挖掘+ NLP
术语频率+ TF-IDF
0
答案
MartinLiebig
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授
职位:
3357年
RM数据科学家
2020年6月
你好,
我不知道你到底在问什么?你能详细说一下吗?
也许LDA适合你。它通常能更好地检测文本上的组。
最好的
马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
0
LindsayKelevra
成员
职位:
5
新手
2020年6月
嗨!我对每个记录包含一篇文章的属性进行聚类(k-means)。使用tf-idf后,现在我有了单词和相对频率的矩阵。现在我试着分析,对于每个簇,包含的单词。由于我有许多属性,是否有可能对每个单词的tf-idf频率求和?或者我想用平均值,这样更正确吗?
0
MartinLiebig
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授
职位:
3357年
RM数据科学家
2020年6月
嗨
@LindsayKelevra
,
我通常是这样理解我的集群的:
https://towardsdatascience.com/understanding-clustering-cf0117148ef4#b7ae
这也适用于tf-idf。
~马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
0
Telcontar120
主持人,RapidMiner认证分析师,RapidMiner认证专家,会员
职位:
1635年
独角兽
2020年6月
从根本上说,您可能不希望添加TF-IDF值,因为它的设计本质上不是相加的(例如,它没有一致的缩放,因为它乘以了逆文档频率的对数)。
如果您想直接使用word向量值,则应该使用固有的可加性指标之一,例如术语出现次数,这只是术语的原始计数,或者术语频率,这只是特定术语所涵盖的总术语的未调整百分比。
但我也同意Martin的观点,这并不是理解集群最直观的方式。您可以使用他描述的一些方法,或者您也可以直接查看质心值(集群操作符的输出之一)并找到与另一个集群最不同的值(图形可视化对此很有帮助)。
布莱恩·T。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
0
登录
或
注册
置评。
答案
德国多特蒙德
德国多特蒙德
如果您想直接使用word向量值,则应该使用固有的可加性指标之一,例如术语出现次数,这只是术语的原始计数,或者术语频率,这只是特定术语所涵盖的总术语的未调整百分比。
但我也同意Martin的观点,这并不是理解集群最直观的方式。您可以使用他描述的一些方法,或者您也可以直接查看质心值(集群操作符的输出之一)并找到与另一个集群最不同的值(图形可视化对此很有帮助)。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询