我正在使用朴素贝叶斯分类,这是我在网上能找到的最简单的方法。结果是…奇怪。
我的训练数据看起来是这样的:2列,column1 =术语/单词的组合,column2 =这些组合的分类
示例:column1 => "where to buy a mercedes" column2 => "mercedes"
示例:column1 => "what the latest mercedes model" => "mercedes"
所以基本上分为汽车的“品牌”
我的数据集应该分类为ovv,只有1列,其中包含术语/单词的组合。
优化或实现这一目标的最佳方式是什么?
1
答案
需要做的是遵循前面描述的文本处理工作流,使用来自文档操作符的处理数据,并确保字符串是文本类型(而不是默认标称)。使用TF-IDF(或另一个)使用此操作符创建一个向量集,并使用输出来训练模型。
通过切换设置(如增加或减少修剪)或在标记化工作流程中添加其他步骤,可以进一步改善结果。
希望这对你有帮助!
到目前为止,我这样做:
Trainigsdata ->“标称到文本”->“从数据处理文档”(内部有一个标记操作符)->“设置角色”->“朴素贝叶斯”->“应用模型”
ps:谢谢你的输入!