我如何绘制单词的频率?

LindsayKelevraLindsayKelevra 成员职位:5新手
2020年6月编辑 帮助

大家好!

我试图使用生成高斯运算符来绘制单词的频率,但将我的结果(手动计算)与它们进行比较,它们真的不同。我需要这个操作来了解通过修剪丢弃哪些值。RapidMiner用来创建高斯函数的公式是什么?

谢谢你!

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    你希望你的词频遵循正态分布吗?对于依赖文本类型的单词分布,这是否是最好的先验模型还不清楚。
    我也不清楚与假设的纯统计分布的一致性如何影响修剪。您最好只是在几个不同的级别上按频率或百分比设置修剪阈值,并查看结果删除了哪些单词。通常情况下,大量单词只出现很少几次对模型性能没有任何影响,但会导致大数据集和长运行时间。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入数据科学咨询由认证的RapidMiner专家
登录注册置评。