来自数据的处理文档:应用于一组新的数据

btibertbtibert 成员,大学教授职位:146大师
也许我遗漏了一些明显的东西,但是您可以想象Process Documents from Data操作符与我们可以在Apply Model中使用的其他预处理模型相当相似。在用这个操作符处理了一个ExampleSet的文本之后,是否有一种方法在新的ExampleSet上应用相同的模型?

一个类似的流程是在sklearn中使用CountVectorizer。

最佳答案

  • Telcontar120Telcontar120 版主,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1630年独角兽
    解决方案接受
    所以你需要两个都做。如果您在Process Documents中采取了特定的文档处理步骤,那么您将需要将这些步骤同样应用到未来的数据集(例如,标记化、n-grams等),但是您将使用wordlist输入端口,以确保只有在初始模型构建中出现的那些单词被计算在后续的评分中。否则,您可能会从新文档生成新的单词,而模型正在查找的单词将会丢失。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询

答案

  • btibertbtibert 成员,大学教授职位:146大师
    在接收新数据的流程文档操作符中使用“单词列表”的方法是吗?子流程不会有任何操作符,而是简单地将输入传递给输出?
  • btibertbtibert 成员,大学教授职位:146大师
    当我附加Word List来处理新文档时,它的表现与我预期的一样。如果这个新文档有新的令牌,我认为它们是OOV并忽略。
  • btibertbtibert 成员,大学教授职位:146大师
    事实上,我最后的评论是个疏忽。您确实需要再次重用相同的操作符,即使我们传入的是单词列表。我觉得这是一个应该避免的额外步骤,但它确实有效。其他工具包抽象了做相同处理的需要。
登录注册置评。