合并两个文件

(删除用户)(删除用户) 职位:0学习者三世


是否可以将两个数据(列车+测试)合并,生成一个列车部分有标签的新数据和没有标签的测试数据?

谢谢你!
标记:
Tghadially

最好的答案

  • varunm1varunm1 主持人,职位:1207年独角兽
    解决方案接受
    你好@mbs

    如果数据集具有相同的属性名称,则可以使用追加运算符追加两个数据集。如果测试或训练数据集相互比较有额外的列,那么可以使用append(超集)。关于测试数据,你们有测试数据的标签吗?如果您没有标签,您可以使用过滤器示例来分离测试数据并将其用于预测。

    如果你有测试数据的标签,我的建议是使用“生成属性”在训练集和测试集中添加一个新属性(具有相同的名称),这个新属性可以有一个值“Tra”用于训练,“Tes”用于测试。这样,我们就可以在使用这个新列追加后对它们进行过滤。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    sgenzer
  • varunm1varunm1 主持人,职位:1207年独角兽
    解决方案接受
    你告诉我你已经(手动)创建了一个文件,其中的数据包括未标记和标记的样品,对吗?如果您这样做了,只需导入新文件并像我前面所说的那样使用过滤器示例。如果属性名仍然存在问题,请删除该行并尝试创建新的属性名。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

答案

  • (删除用户)(删除用户) 职位:0学习者三世
    2019年10月编辑
    @varunm1

    谢谢你的回答,但它有点复杂,所以你能给我一个例子(过程)吗?

    你之前看过我的数据B)

    谢谢你!
  • varunm1varunm1 主持人,职位:1207年独角兽
    你好@mbs

    下面是创建的虚拟数据和.rmp文件,您可以将其导入到rapidminer并查看。附加(超集)操作符位于操作符工具箱中,需要从市场上安装。



    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    IngoRM sgenzer
  • (删除用户)(删除用户) 职位:0学习者三世
    @varunm1


    它已经读取excel操作符,我又得到了错误: ' (
  • (删除用户)(删除用户) 职位:0学习者三世
    合并两个数据PLZ

    谢谢
  • varunm1varunm1 主持人,职位:1207年独角兽
    您可以将数据导入到存储库中,然后拖放这些数据,而不是读取excel操作符。如果这不起作用,我的建议是创建一个excel文件与训练和测试数据,然后将它们导入到rapidminer。然后可以应用过滤器来划分训练和测试数据集。我附加了一个虚拟的excel文件,其中包含一个新属性,该属性定义了该样本属于训练(Tra)或测试(Tes)。该列用于分隔数据(Filter示例)。


    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • (删除用户)(删除用户) 职位:0学习者三世
    2019年10月编辑
    谢谢你!

    它有任何标签吗?

    标签对我的工作很重要
  • varunm1varunm1 主持人,职位:1207年独角兽
    2019年10月编辑
    我创建的数据有一个用于训练的标签和用于测试的缺失值。如果您在测试数据中有很好的标签,那么您正在使用表示数据属于训练或测试的列过滤掉测试数据。参见上一篇文章中附上的excel表格中的“Data_type”列,该列指定数据属于哪个样本。一旦您将它们分开并使用apply模型,它将负责测试。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    Tghadially
  • (删除用户)(删除用户) 职位:0学习者三世
    @varunm1



    我还是看到了错误:(

    一些空列的名称在我的数据是错误的:/
  • varunm1varunm1 主持人,职位:1207年独角兽
    @mbs你的excel文件里好像发生了什么怪事。隐藏的空格可能会导致数据导入出现问题。不过我不确定。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • (删除用户)(删除用户) 职位:0学习者三世
    2019年10月编辑
    @varunm1


    数据中没有空间了。

    我在我朋友的笔记本电脑(RM版本9.2)上尝试了一下,但仍然有问题: ' (
  • varunm1varunm1 主持人,职位:1207年独角兽
    你试过我的excel文件检查,如果它有一个错误与这些?
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • (删除用户)(删除用户) 职位:0学习者三世
    你的文件没问题,但我的还是有问题
  • varunm1varunm1 主持人,职位:1207年独角兽
    2019年10月编辑
    不幸的是,没有你的文件我帮不上什么忙。我想了很多选择。我的理解是,这个问题是在特定的excel文件格式错误。顺便问一下,这些excel文件是你手工创建的,还是你从其他系统或软件作为输出得到的?

    另外,尝试为列名创建虚拟名称,看看它是如何工作的。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • (删除用户)(删除用户) 职位:0学习者三世
    @varunm1

    谢谢你的帮助

    我手动做了这个文件,并将其复制到其他excel并修复它,但现在我的数据有一半有标签,另一部分没有标签。在这种情况下,你的建议是什么?

    问候

    mbs
  • varunm1varunm1 主持人,职位:1207年独角兽
    您希望正确使用未标记的数据进行预测。您可以使用过滤器示例操作符在rapidminer中分离标记和未标记的数据。我在之前的帖子中提到过这一点。您可以使用标记的数据来构建模型,而使用未标记的数据来根据该模型进行预测。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • (删除用户)(删除用户) 职位:0学习者三世
    我知道,但如果你们还记得我告诉过你们的两个数据有问题,因此我把它们结合起来

    还有别的办法吗?

    谢谢你!
  • (删除用户)(删除用户) 职位:0学习者三世
    是的是的

    终于成功了o:)

    非常感谢@varunm1

    varunm1
登录注册置评。