文本分类/分类帮助

15059931505993 成员职位:2贡献我
2020年8月编辑 帮助

嘿!

只是在寻找一些关于我目前正在做的项目的帮助。我是RapidMiner和AI的新手,我正在寻找一些方向。

我有一个noSQL MongoDB,存储8000个不同的抓取工作。主要属性是描述,标题,文本和关键字,我已将标签工作分配给所有这些。

我希望能够自动分类/分类我所有的工作到不同的工作部门基于他们的职称,例如软件开发工作将被分类到技术部门。我真的不知道如何实际去实现这个,以及RapidMiner的不同分类模型是如何工作的,任何帮助都会非常感激。

感谢阅读!

答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽

    @1505993

    2 .方法:

    1.您可以将8000个不同的抓取作业“聚类”到“k”个簇中,其中k是您正在考虑的作业类别的数量。

    例如,如果你设想的类别是“技术部门”、“人力资源部门”、“工程部门”、“营销部门”,那么k = 4。

    你可以用k - means操作符。

    但很难说这种方法是否对你的数据有效。

    2.对我来说,一个更可靠的方法是训练一个分类模型,但它需要更多的工作:

    你得先训练一个模型然而,朴素贝叶斯神经网络等等——很难先验地说哪个模型是最好的)对你的数据的一部分(例如1000个工作/ 8000个)。对于这部分数据,您必须标记工作类别(恢复我的最后一个例子,将您的1000个工作标记为“技术部门”,“人力资源部门”,“工程部门”,“营销部门”),然后评估您的模型的性能交叉验证操作符,最后你可以将模型应用到你的7000 (8000-1000)“未标记的”工作。

    我希望能有所帮助,

    问候,

    莱昂内尔

    sgenzer 1505993
  • 15059931505993 成员职位:2贡献我

    我将尝试训练一个分类模型,并比较每个模型,看看结果有多准确。

    我对这种方法唯一关心的是1000个工作的标签。我将在c#中编写一个函数,并将数据库中的标签更改为sectrs,但这不会使分类模型冗余吗?我就不能对所有的工作都这么做吗?

    谢谢你的帮助,只是需要一些指导。

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽

    @1505993

    我很难理解:

    你已经在c#中有一个人工智能程序,能够根据不同的变量(职位等)自动标记工作?

    如果是这样,实际上,您不需要训练模型,也不需要RapidMiner .....

    但有一个问题:你评估过这个程序的性能吗(准确率=正确预测的总数/预测的总数)?

    为了更详细地解释我的方法:

    1.你得先贴上标签手动1000个工作岗位。我坚持“手动”,因为这1000个工作必须是100%正确标记(人工智能程序无法达到100%的准确率),这就是为什么我说“它需要更多的工作”。

    2.在1000个工作的标记数据集上训练许多模型(kNN,神经网络等)。

    3.评估这些模型的准确性交叉验证操作符。(此准确性代表了您的模型在未标记数据上的准确性)。

    4.在未标记的数据集(剩下的7000个作业)上选择并应用最佳模型。

    我希望它更清晰。

    问候,

    莱昂内尔

  • kypexinkypexin 主持人,RapidMiner认证分析师,会员职位:290独角兽

    @1505993

    我曾经做过一个关于文本分类的项目,所以我想我可以在这里引用我在另一个关于文本分类的帖子中的一个答案,希望这可能对你有所帮助或启发:https://community.www.turtlecreekpls.com/t5/RapidMiner-Studio-Forum/autotagging-and-autocategorizing-text-pieces/m-p/43717/highlight/true#M29049

    --
    弗拉基米尔•
    http://whatthefraud.wtf
    sgenzer
登录注册置评。