来自数据的处理文档:应用于一组新的数据

btibert · 2021年4月

也许我遗漏了一些明显的东西，但是您可以想象Process Documents from Data操作符与我们可以在Apply Model中使用的其他预处理模型相当相似。在用这个操作符处理了一个ExampleSet的文本之后，是否有一种方法在新的ExampleSet上应用相同的模型?

一个类似的流程是在sklearn中使用CountVectorizer。

Telcontar120 · 2021年4月

所以你需要两个都做。如果您在Process Documents中采取了特定的文档处理步骤，那么您将需要将这些步骤同样应用到未来的数据集(例如，标记化、n-grams等)，但是您将使用wordlist输入端口，以确保只有在初始模型构建中出现的那些单词被计算在后续的评分中。否则，您可能会从新文档生成新的单词，而模型正在查找的单词将会丢失。

btibert · 2021年4月

在接收新数据的流程文档操作符中使用“单词列表”的方法是吗?子流程不会有任何操作符，而是简单地将输入传递给输出?

btibert · 2021年4月

当我附加Word List来处理新文档时，它的表现与我预期的一样。如果这个新文档有新的令牌，我认为它们是OOV并忽略。

btibert · 2021年4月

事实上，我最后的评论是个疏忽。您确实需要再次重用相同的操作符，即使我们传入的是单词列表。我觉得这是一个应该避免的额外步骤，但它确实有效。其他工具包抽象了做相同处理的需要。

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习的最佳实践。与同事建立联系。

来自数据的处理文档:应用于一组新的数据

最佳答案

答案