两个数据集的文本挖掘分类问题

mschmidkonmschmidkon 成员职位:2贡献我
2019年7月编辑 帮助
嘿!
我有一个问题与文本挖掘和分类根据关键字与两个数据集。目标是根据文本描述对产品进行分类。乐鱼官网手机版下载

初始情况:
我有两个数据集,第一个包含一个唯一标识符(代表产品的数字)和四列,包括描述该产品的文本(短/长文本描述等)。第二个数据集包含两列,第一列是描述分类标签的文本,第二列包含分类代码。我们的目标是根据第二个数据集对数据集1中的产品进行分类,乐鱼官网手机版下载因此需要识别相同的词出现次数,并采取相似词出现次数最高的分类码。该过程应该从第一个数据集中获取一个产品,并从第二个数据集中查找所有标签,以便找到最适合的标签。
现状:
我创建了一个RapidMiner进程,它分别读取两个csv文件,将输入转换为“从数据处理文档”,包括tokenization, Filter Stopwords, Stem和Generate n-Grams。结果集包括标记化单词的出现次数,现在我想比较两个数据集的结果集(两个数据集在相同的顺序中没有相同数量的属性,但有相同的属性),目的是找到“相似”的单词并对产品进行分类。有人知道如何用rapidminer的操作员比较这两个数据集以及如何对这些产品进行分类吗?乐鱼官网手机版下载

非常感谢!

迈克尔
Tghadially

最佳答案

答案

登录注册置评。