《文本挖掘与词表》
MartinLiebig
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3286年RM数据科学家
症状
使用流程文档(来自数据),您可以从给定的一组文档生成一个标记化的示例集。如果您使用一个流程文档进行培训,而使用另一个流程文档进行测试,则可能会出现错误不兼容的属性数量如果你应用这个模型。
诊断
问题可能是您没有将单词列表从一个过程文档转移到另一个过程文档。该词表主要包含两个信息:
- 要生成哪个属性
- 正常化
如果不转移单词列表,文档中没有出现的单词将不会创建属性。在修剪的情况下,不同的词将从你的词袋删除。当然,另一个影响是,即使创建了相同的属性,规范化(TF/IDF)也可能不同。
解决方案
将在培训流中创建的单词列表转移到应用程序流中。因此您创建
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
德国多特蒙德
标记:
3.
评论
德国多特蒙德
你好,我已经参考了你给的图标连接操作符,但它仍然显示实际的属性。不知道我做得对不对?