如何

mauricenewmauricenew 成员职位:4学我
2019年10月编辑 帮助
我正在使用朴素贝叶斯分类,这是我在网上能找到的最简单的方法。结果是…奇怪。

我的训练数据看起来是这样的:2列,column1 =术语/单词的组合,column2 =这些组合的分类

示例:column1 => "where to buy a mercedes" column2 => "mercedes"
示例:column1 => "what the latest mercedes model" => "mercedes"

所以基本上分为汽车的“品牌”

我的数据集应该分类为ovv,只有1列,其中包含术语/单词的组合。

优化或实现这一目标的最佳方式是什么?


Tghadially

答案

  • kaymankayman 成员职位:662独角兽
    你是对你的数据集进行标记(按单词、设置大小写、剥离停止词等),还是对整个句子进行分类?

    需要做的是遵循前面描述的文本处理工作流,使用来自文档操作符的处理数据,并确保字符串是文本类型(而不是默认标称)。使用TF-IDF(或另一个)使用此操作符创建一个向量集,并使用输出来训练模型。

    通过切换设置(如增加或减少修剪)或在标记化工作流程中添加其他步骤,可以进一步改善结果。

    希望这对你有帮助!
    Tghadially sgenzer
  • mauricenewmauricenew 成员职位:4学我
    2019年10月编辑
    我是否需要对训练数据和我的数据集(应该是预测的)都进行标记?

    到目前为止,我这样做:

    Trainigsdata ->“标称到文本”->“从数据处理文档”(内部有一个标记操作符)->“设置角色”->“朴素贝叶斯”->“应用模型”

    ps:谢谢你的输入!


    varunm1 Tghadially
登录注册置评。