两个数据集的文本挖掘分类问题

mschmidkon · 2019年7月

嘿!
我有一个问题与文本挖掘和分类根据关键字与两个数据集。目标是根据文本描述对产品进行分类。乐鱼官网手机版下载

初始情况:
我有两个数据集，第一个包含一个唯一标识符(代表产品的数字)和四列，包括描述该产品的文本(短/长文本描述等)。第二个数据集包含两列，第一列是描述分类标签的文本，第二列包含分类代码。我们的目标是根据第二个数据集对数据集1中的产品进行分类，乐鱼官网手机版下载因此需要识别相同的词出现次数，并采取相似词出现次数最高的分类码。该过程应该从第一个数据集中获取一个产品，并从第二个数据集中查找所有标签，以便找到最适合的标签。
现状:
我创建了一个RapidMiner进程，它分别读取两个csv文件，将输入转换为“从数据处理文档”，包括tokenization, Filter Stopwords, Stem和Generate n-Grams。结果集包括标记化单词的出现次数，现在我想比较两个数据集的结果集(两个数据集在相同的顺序中没有相同数量的属性，但有相同的属性)，目的是找到“相似”的单词并对产品进行分类。有人知道如何用rapidminer的操作员比较这两个数据集以及如何对这些产品进行分类吗?乐鱼官网手机版下载

非常感谢!

迈克尔

rfuentealba · 2019年7月

嘿@mschmidkon，

您是否介意与我们分享您的流程，以便我们更好地指导您?

愿一切都好！

杆。

mschmidkon · 2020年3月

谢谢，问题解决了。

cristian_michi · 6月7日

@mschmidkon你能帮我做这个题目吗?我必须做一些类似的事情。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

两个数据集的文本挖掘分类问题

最佳答案

答案