《文本挖掘与词表》

MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3286年RM数据科学家
2019年6月编辑 知识库

症状

使用流程文档(来自数据),您可以从给定的一组文档生成一个标记化的示例集。如果您使用一个流程文档进行培训,而使用另一个流程文档进行测试,则可能会出现错误不兼容的属性数量如果你应用这个模型。

诊断

问题可能是您没有将单词列表从一个过程文档转移到另一个过程文档。该词表主要包含两个信息:

  • 要生成哪个属性
  • 正常化

如果不转移单词列表,文档中没有出现的单词将不会创建属性。在修剪的情况下,不同的词将从你的词袋删除。当然,另一个影响是,即使创建了相同的属性,规范化(TF/IDF)也可能不同。

解决方案

Wordlist.png

将在培训流中创建的单词列表转移到应用程序流中。因此您创建

- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
JEdward bhupendra_patil mariannita

评论

  • cicicici 成员职位:6新手
    对不起,我不太明白,我如何生成和传输单词列表???感谢您的回复
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3286年RM数据科学家
    将上面流程文档的word端口与下面流程文档的word端口连接,如截图所示。
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • cicicici 成员职位:6新手

    你好,我已经参考了你给的图标连接操作符,但它仍然显示实际的属性。不知道我做得对不对?
  • cicicici 成员职位:6新手
    谢谢您的回复!我只是按照你给的连接,但它仍然显示属性不匹配。我想再问你一个问题。既然我已经有了一个训练集和一个测试集,为什么还要使用验证呢?
登录注册置评。