如何加入多个excel表格,将它们组合成一个集群(k-means) ?

DDresenDDresen 成员职位:10贡献我
2020年7月编辑 帮助
嘿,

我试图加入(在这个例子2中,但目的是加入大量的excel)一些excel表格与连接操作符聚类类似的文档来自不同的数据集。我的问题是,连接操作符将其结构相同的数据集覆盖到到达集群操作符的示例集为空。附上你会发现我使用+数据集的过程。

怎么解呢?提前感谢!

griech.xlsx 474.3 k
afgha.xlsx 459.7 k
join.rmp 8.7 k

最佳答案

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    @DDresen

    您确定要连接而不附加这两个集合吗?

    ~马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    DDresen
  • DDresenDDresen 成员职位:10贡献我
    @mschmitz

    我的错,你完全正确!现在我已经改变了流程,还有另一个问题。为什么是空的?
    join.rmp 18.2 k
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    @DDresen
    你说的“那些”是什么意思?

    ~马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • DDresenDDresen 成员职位:10贡献我
    对不起,我只是想弄明白我的问题,当你不知道自己的问题是什么时,这很难。但我想我估计出问题是什么了。正如你可以看到在我附加的过程中,我试图读取多个数据集,其中只包含文本,由','分隔。在替换缺失的值之后,我使用流程文档操作符来标记,转换大小写等,其中最重要的部分是:创建这些标记的tf-idf单词向量。在对每个数据集进行此操作之后,我想附加这些向量矩阵以随后对它们进行聚类。
    这就是它破裂的地方。显然,不可能附加具有不同属性名称的示例集(这些示例集现在具有生成的文本标记的值—为了更好地理解,我将附加一张图片)。


    所以我的问题是:我如何附加这些矩阵来聚类它们?
登录注册置评。