将训练好的模型应用于新的未标记数据集时出错

StannStann 成员职位:5学我
我想把朴素贝叶斯模型应用到一个新的(未标记的)数据集上。该模型已经通过交叉验证进行了训练和测试。然而,当我试图将模型应用于一个全新的数据集时,我得到一个错误消息。

以下是我的流程概述和我得到的错误:


“检索聚合”是新的(未标记的)数据集,我想使用我训练过的模型来预测它。

“从数据处理文档”包含一个“Tokenize”操作符。

交叉验证操作符中的子流程有:


我是RapidMiner的新手,我不知道为什么我得到这个错误:(
我将非常感谢你的帮助,因为我需要继续我的研究:)

最佳答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1194年独角兽
    解决方案接受
    @Stann

    是的,这是可能的:

    如前所述,在测试集“分支”中应用相同的预处理步骤。

    并连接单词输出(磨破)从数据中处理文档操作员将您的训练“分支”字输入(磨破)。从数据中处理文档你的测试集分支。

    问候,

    莱昂内尔
    Stann

答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1194年独角兽
    @Stann

    训练集和未标记的测试集的属性必须完全相同。
    因此,您必须对未标记的测试集严格应用相同的预处理步骤(因此,您必须应用
    标称文本从数据中生成文档操作员到您的测试集)。目前,您正在将原始测试集应用于模型…

    希望这能帮到你,

    问候,

    莱昂内尔
  • ceaperezceaperez 成员职位:352独角兽
    @Stann

    似乎你的训练数据集和测试数据集的属性(列)的名称不一样。
    请验证测试数据集的名称和类型。

    最好的
    Stann
  • StannStann 成员职位:5学我
    @lionelderkrikor@ceaperez感谢您的快速回复。

    拥有完全相同的属性是不可能的,因为每个属性都是出现在初始文本文档中的标记(单词)。由于新的(未标记的)数据集包含不同的文本文档作为训练集,因此属性总是不同的,因为新数据集中的文本文档由“新”标记组成。

    话虽如此,是否还有一种方法可以将模型应用于新的(未标记的)集合?
登录注册置评。