具有描述文本数据和预定义“桶”的文本聚类/学习

JoshLJoshL 成员职位:1新手
我是新的快速矿工,我正在寻找一般/高层次的建议在这里!我有一些文本描述数据,我用一个“标签”标记了每个记录,该标签将该描述数据定义为X个可用桶中的一个。例如,如果描述文本是“站点性能缓慢”,我会将其“标记”为“性能”。我有一个大的数据集,我有每个描述和“标签”,我手动分组到。我想在RapidMiner中做一些事情,我让它分析过去作为“训练”集的描述和标签数据的组合。然后从那里,当我得到新的描述记录(还没有一个“标签”填充),我想有统计工具使用历史数据来猜测它会是什么标签。因此,例如,如果另一个描述进来说“网站性能慢”与类似的关键字,它将知道从训练数据,这通常被标记为“性能”标签。我想得到这个设置,这样我就不必每次都要添加标签,并且统计软件会首先对其进行猜测。然后从那里我可以确认它是否准确,并手动进行更改,从而随着时间的推移改进“训练”数据....这里有什么高层次的建议吗?

答案

  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    @JoshL欢迎,抱歉没有人插话。这仍然是个问题吗?

    斯科特
登录注册置评。