类别

版本

读XRFF(高级文件连接器)

剧情简介

此操作符用于读取XRFF(可扩展属性-关系文件格式)文件。

描述

该操作符可以读取Weka中已知的XRFF文件。XRFF(可扩展属性关系文件格式)是ARFF格式的基于xml的扩展,在某种意义上类似于用于属性描述文件的原始RapidMiner文件格式(.aml)。通过研究附带的示例流程,您可以看到一个示例XRFF文件。

由于数据被包装到XML标记中,XML表示占用了相当多的空间,因此还可以通过gzip压缩数据。如果文件的扩展名是.xrff.gz而不是.xrff, RapidMiner会自动识别被gzip压缩的文件。

XRFF文件分为两个部分,即头和主体。头部有元数据描述,主体有实例。通过头中的属性规范中的class="yes"属性,可以定义哪个属性应该用作预测标签属性。虽然RapidMiner对此类类的术语是“label”而不是“class”,但我们支持术语类,以便与原始XRFF文件兼容。

输入

  • 文件(文件)

    这个可选端口需要一个文件对象。

输出

  • 输出(数据表)

    XRFF文件从指定的路径读取,生成的exampleeset通过该端口传递。

参数

  • data_file此参数指定XRFF文件的路径。选项可以选择选择一个文件按钮。范围:文件名
  • id_attribute此参数指定id属性的名称。请注意,该字段区分大小写。范围:字符串
  • datamanagement此参数决定数据在内部如何表示。这是一个专家参数。有不同的选项,用户可以选择其中任何一个。选择范围:
  • decimal_point_character此参数指定用作小数点的字符。范围:字符串
  • sample_ratio该参数指定应该读取的数据集中的部分。如果设置为1,则读取完整的数据集。如果它被设置为-1,那么样本大小参数用于确定要读取的数据的大小。范围:真正的
  • sample_size此参数指定应该读取的样本的确切数量。如果设置为-1,则样本率参数用于确定要读取的数据的大小。如果两者都设置为-1,则读取完整的数据集。范围:整数
  • use_local_random_seed此参数表示如果a局部随机种子应该用于随机化。使用相同的值局部随机种子会产生相同的随机化。范围:布尔
  • local_random_seed此参数指定局部随机种子.此参数仅在使用局部随机种子参数设置为true。范围:整数

教程的过程

写入和读取XRFF文件

本示例过程分别演示了写XRFF和读XRFF操作符的使用。这个示例过程展示了如何使用这些操作符来写入和读取ExampleSet。使用Retrieve操作符加载'Golf'数据集。这个示例集是作为Write XRFF操作符的输入提供的。示例set文件参数设置为'%{tempdir}/golf。Xrff '因此文件名为'高尔夫。在计算机的临时文件夹中创建Xrff '(如果它还不存在)。您可以打开写入的文件并对其进行更改(如果需要的话)。接下来应用Read XRFF操作符。数据文件参数设置为'%{tempdir}/golf。xrff'来读取刚刚使用Write xrff操作符写入的文件。 The remaining parameters are used with default values. The resultant ExampleSet can be seen in the Results Workspace.