具有描述文本数据和预定义“桶”的文本聚类/学习

JoshL · 2020年4月

我是新的快速矿工，我正在寻找一般/高层次的建议在这里!我有一些文本描述数据，我用一个“标签”标记了每个记录，该标签将该描述数据定义为X个可用桶中的一个。例如，如果描述文本是“站点性能缓慢”，我会将其“标记”为“性能”。我有一个大的数据集，我有每个描述和“标签”，我手动分组到。我想在RapidMiner中做一些事情，我让它分析过去作为“训练”集的描述和标签数据的组合。然后从那里，当我得到新的描述记录(还没有一个“标签”填充)，我想有统计工具使用历史数据来猜测它会是什么标签。因此，例如，如果另一个描述进来说“网站性能慢”与类似的关键字，它将知道从训练数据，这通常被标记为“性能”标签。我想得到这个设置，这样我就不必每次都要添加标签，并且统计软件会首先对其进行猜测。然后从那里我可以确认它是否准确，并手动进行更改，从而随着时间的推移改进“训练”数据....这里有什么高层次的建议吗?

sgenzer · 2020年4月

嗨@JoshL欢迎，抱歉没有人插话。这仍然是个问题吗?

斯科特

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

具有描述文本数据和预定义“桶”的文本聚类/学习

答案