表现结果:训练vs测试

HeikoeWin786HeikoeWin786 成员职位:64因素二世
亲爱的所有,

我是rapidMiner的新手,我想对航空公司数据集执行NBC。我有一个航空公司数据集,其中标记了情绪数据(正负和中性)。我将数据集划分为75/25数据分割,并执行文本处理(即标称到文本、数据到文档、用标记化预处理文档、停止词)。然而,当结果从预处理文档操作符输出word时,我发现负、正和中性数据列都有零值。然后,在我实现NBC之后,我得到的训练准确率为87%,而测试数据集的准确率为0.00%。

你能帮我理解我在这里错过了什么吗?

提前感谢!


最佳答案

答案

  • HeikoeWin786HeikoeWin786 成员职位:64因素二世
    @Telcontar120

    非常感谢。
    我重新审视了整个过程,我拆分了数据,对于测试数据,我使用了火车数据集文本预处理后的单词输出。然后我收到了结果。但是,训练数据和测试数据的结果是相同的。这正常吗?
    例如:训练数据->文本预处理(存储单词输出)-> NBC
    测试数据->文本预处理(输入上述步骤的单词输出)-> NBC
    两种工艺的精度都是65%,这是理想的吗?

    谢谢和问候。
    Heikoe
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    在没有看到数据的情况下,这是不可能的。这当然是可能的。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • aengleraengler 成员职位:6因素二世
    2020年7月编辑
    嗨海科,
    在我看来,这个标签不知怎么就消失了。您是否可以检查单词列表是否仍然在单词训练数据集中提供标签属性(它被标记在某个绿色列中)?您还可以检查角色。有些操作符跳过了标签等特殊属性,从而丢失了它
    此外,如果你在测试和训练之间划分25-75,那么在相同的过程中看到这一点将会很有趣。如果你总是在相同的过程中这样做,你就会防止你处理训练数据和测试数据的方式不同。
    MartinLiebig HeikoeWin786
  • HeikoeWin786HeikoeWin786 成员职位:64因素二世
    @aengler
    非常感谢你的解释。是的,我遵循了同样的过程。而且,每次测试和训练的结果(SVM或NBC)都返回几乎相同的结果。
    我有点不确定这是否是理想的,这就是为什么。

    谢谢,
    Heikoe
登录注册置评。