将训练好的模型应用于新的未标记数据集时出错

Stann · 2021年5月

我想把朴素贝叶斯模型应用到一个新的(未标记的)数据集上。该模型已经通过交叉验证进行了训练和测试。然而，当我试图将模型应用于一个全新的数据集时，我得到一个错误消息。

以下是我的流程概述和我得到的错误:

“检索聚合”是新的(未标记的)数据集，我想使用我训练过的模型来预测它。

“从数据处理文档”包含一个“Tokenize”操作符。

交叉验证操作符中的子流程有:

我是RapidMiner的新手，我不知道为什么我得到这个错误

我将非常感谢你的帮助，因为我需要继续我的研究

lionelderkrikor · 2021年5月

@Stann，

是的，这是可能的:

如前所述，在测试集“分支”中应用相同的预处理步骤。

并连接单词输出(磨破)从数据中处理文档操作员将您的训练“分支”字输入(磨破)。从数据中处理文档你的测试集分支。

问候,

莱昂内尔

lionelderkrikor · 2021年5月

嗨@Stann，

训练集和未标记的测试集的属性必须完全相同。
因此，您必须对未标记的测试集严格应用相同的预处理步骤(因此，您必须应用
标称文本和从数据中生成文档操作员到您的测试集)。目前，您正在将原始测试集应用于模型…

希望这能帮到你，

问候,

莱昂内尔

ceaperez · 2021年5月

嗨@Stann，

似乎你的训练数据集和测试数据集的属性(列)的名称不一样。

请验证测试数据集的名称和类型。

最好的

Stann · 2021年5月

@lionelderkrikor，@ceaperez感谢您的快速回复。

拥有完全相同的属性是不可能的，因为每个属性都是出现在初始文本文档中的标记(单词)。由于新的(未标记的)数据集包含不同的文本文档作为训练集，因此属性总是不同的，因为新数据集中的文本文档由“新”标记组成。

话虽如此，是否还有一种方法可以将模型应用于新的(未标记的)集合?

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

将训练好的模型应用于新的未标记数据集时出错

最佳答案

答案