连接多个数据集的特定案例

Sunnyboy_nhSunnyboy_nh 成员职位:10新手

嗨,这句话,

在一个数据乐鱼平台进入科学项目中,我收到了4个关于健康饮食保护自己免受Covid-19的有趣主题的清洁数据集。我已经在Rapidminer Studio中导入了这4个数据集。在我用机器学习、建模和统计预测分析它们之前,我想把这4个数据集合并成一个数据集。这就是我遇到的一个理解问题,如何走得更远....

所有这4个清理过的数据集都有完全相同的32列和170行。只有以下表格所传递的信息在%-值上有所不同:

1.Fat_Supply_Quantity_Data.csv

2.Food_Supply_kcal_Data.csv

3.Food_Supply_Quantity_kg_Data.csv

4.Protein_Supply_Quantity_Data

您如何看待将这4个数据集连接到一个单一数据库的可能性,尽管所有数据集都具有相同数量的32列和相同的170行,或者我应该分别查看4个数据集中的每个数据集并将它们分开处理?你能用你的见解来支持我吗?

标记:

答案

  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @Sunnyboy_nh

    先验地,如果您的4个数据集具有严格相同的属性名称,则需要附加操作符。
    因此,结果数据集将有680行(170x4行)x 32列。

    在创建这个结果数据集之后,您可以首先将这些数据集提交给autommodel以自动创建
    机器学习模型基于你的数据。

    祝你学习顺利。

    问候,

    莱昂内尔
  • Sunnyboy_nhSunnyboy_nh 成员职位:10新手
    感谢Lionel用Append代替Join的提示!
    我会试试看,但在此之前,又有一个问题出现了.....每个数据集中相同数量的170行是“国家”名称,这些名称也与获取数据的位置完全相同。我如何去新添加的行/追加后的例子?然后,我是否应该根据数据值重新命名每个新添加的170批行/示例?

    最后,是否可以对所有4个日期集都使用Append还是一次只能使用Append 2个?

    问候
    纳德
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    数据的组织方式很重要,说它是相同行数和列数的数据并不能澄清。这170个人对他们的饮食有32x4个不同的观察吗?这是一个时间序列数据集吗?还是相同的32个属性适用于170x4个不同的人?或者完全是别的什么?
    正如Lionel所说,如果相同的32个属性适用于680个不同的人,那么Append应该能做到这一点。但如果是不同的数据,则可能需要另一种类型的Join甚至Merge,并且可能还需要pivot或转换数据。一般来说,您需要考虑最后想要的数据的结构,然后向后工作。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • Sunnyboy_nhSunnyboy_nh 成员职位:10新手
    嗨Telcontar120,

    谢谢你进一步的区分。
    我回信给Lionel的170行/例子是全球170个国家的数据,这些数据来自相同的32个库仑/属性,但数据来自4个不同的观察结果,正如你在这里再次看到的:

    1.Fat_Supply_Quantity_Data.csv

    2.Food_Supply_kcal_Data.csv

    3.Food_Supply_Quantity_kg_Data.csv

    4.Protein_Supply_Quantity_Data.csv

    因此,行不是人,而是相同的国家,属性是相同的参数,但来自4个不同的方面或4个独立数据集中的观察,每个数据集中提供不同的信息%-值。

    所以你仍然认为追加会做的伎俩,或者如果是这样,应该用后缀重新命名新添加的行,因为他们都是相同的国家?


    问候

    纳德

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    在这种情况下,您不需要Append,因为听起来您希望最终得到一个具有170行和128个属性的数据集,而不是680x32。每个文件中的属性是相似的,但实际上并不相同。
    因此,您应该选择Join,然后逐个添加每个文件的属性。
    但是首先要重命名属性,以便清楚它们来自哪个文件。您可以使用“通过替换重命名”操作符来做到这一点。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • Sunnyboy_nhSunnyboy_nh 成员职位:10新手
    2020年5月编辑


    谢谢,这最后一个建议听起来不错,我认为更有意义的不是追加,而是连接日期集和重命名他们的属性/列的文件,然后在最后加入到一个单一的数据集128属性x 170行。

    但是,由于我有4个数据集和操作员一次只加入2个数据集,我是否应该在3个阶段中连续加入,或者是否有一种更好更简单的方法来加入多个数据集?

    问候
    纳德
登录注册置评。