跳到主要内容

输入/输出

在云中,RapidMiner无法访问本地文件系统。因此,要使您的数据发挥作用,您必须首先上传数据到目录。

如前所述,您可以将任何数据格式的文件上传到目录。然而,我们区分了两种不同的情况:

  • HDF5: RapidMiner原生数据文件格式。您可以在RapidMiner Studio的文件夹中找到HDF5数据文件文件/ RapidMiner,扩展为rmhdf5table
  • 其他:要使用任何其他数据格式,例如CSV或Excel,您需要将输入连接到工作流设计器中的相关操作符(例如:读CSV).

要理解这句话的含义,请查看下面的屏幕截图。中出现了两个包含相同数据表的文件数据标签《泰坦尼克号》项目:一个在CSV格式和一个在rmhdf5table格式(RapidMiner HDF5)注意,只有一个文件,即rmhdf5table格式——提供动作启动自动ML

数据:CSV和RMHDF5

但是,假设只有一个CSV文件可用,并且希望使用Auto ML——该怎么做呢?显然,您需要将CSV文件转换为rmhdf5table格式。

让我们从头开始,假设你有:

  • 一个现有的项目《泰坦尼克号》
  • 本地文件系统上的CSV文件。

从这个起点开始,我们将重新创建上面屏幕截图中显示的状态。

添加数据

数据标签《泰坦尼克号》项目,点击添加数据.将出现一个文件选择器,您可以将CSV文件上传到项目。

添加CSV数据

由于CSV文件是从项目内部上传的,而不是通过目录,在本例中,数据的所有者是项目《泰坦尼克号》

创建工作流

切换到内容选项卡,然后选择创建工作流.命名你的工作流并(可选)描述它的目的:

创建工作流

在工作流程中,您将看到一个空白画布和一些控制结构:

  • 运营商-允许您访问RapidMiner的操作符
  • 数据-允许访问目录中的数据
  • 项目-允许您访问项目中的其他资源乐鱼体育安装

搜索字段允许您在这些类别中进行搜索。找到感兴趣的对象后,可以将其拖到画布上。接下来,我们将创建一个简单的工作流。

输入

选择数据Tab键,然后拖动Titanic-CSV对画布:

从目录中拖动数据

读CSV

选择运营商选项卡上,输入读CSV到搜索字段中,并拖动读CSV操作员到画布:

拖读CSV操作符

输出

选择运营商选项卡上,输入输出到搜索字段中,并拖动输出操作员到画布:

拖动输出操作符

完整的工作流程

在这个阶段,您拥有了所有组件,但它们仍然是断开连接的。

断开连接的工作流

要完成该工作流,请执行以下步骤:

  1. 通过单击操作符的端口连接操作符。

  2. 盘旋的输出操作符,然后选择打开参数面板从它下面显示的图标。

  3. 输出参数面板:

    • 选择保存结果
    • 文件位置中,选择数据和写《泰坦尼克号》作为数据文件的名称。
  4. 点击运行步骤

保存结果

结果

我们已到达目的地。结果有两种形式,如输出参数面板:

  • 显示数据。
  • 数据保存在一个名为《泰坦尼克号》

中保存的数据rmhd5table格式,参见项目的数据选项卡。为过滤器类型中,选择数据表,只有文件被调用《泰坦尼克号》会出现,而不是Titanic-CSV

数据:CSV和RMHDF5