类别

版本

读取Excel(RapidMiner Studio Core)

剧情简介

这个操作符从指定的Excel文件中读取一个ExampleSet。

描述

此操作符可用于从Microsoft Excel电子表格加载数据。此操作符能够从Excel 95、97、2000、XP和2003读取数据。用户必须定义工作簿中的哪些电子表格应该用作数据表。表必须具有这样一种格式,即每行是一个示例,每列表示一个属性。请注意,Excel工作表的第一行可能用于属性名称,可以通过参数表示。数据表可以放在工作表的任何位置,并且可以包含任意格式说明、空行和空列。Excel中缺少的数据值应由空单元格或仅包含“?”的单元格表示。

要完全理解这个操作符,请阅读参数部分。导入Excel文件最简单、最快捷的方法是使用导入配置向导从Parameters面板中。最好的方法(可能需要一些额外的工作)是首先在parameters面板中设置所有参数,然后使用向导。在使用Excel文件构建进程之前,请确保正确读取Excel文件。

输入

  • 文件(文件)

    Excel文件是一个文件对象,它可以用其他带有文件输出端口的操作符(如Read file操作符)创建。

输出

  • 输出(数据表)

    该端口以表格形式提供Excel文件以及元数据。该输出类似于Retrieve操作符的输出。

参数

  • import_configuration_wizard此选项允许您通过向导配置此操作符。这个用户友好的向导使这个操作符的使用变得容易。范围:
  • excel_fileExcel文件的路径在这里指定。可以使用选择一个文件按钮。范围:
  • sheet_selection此选项允许您在工作表编号和工作表名称之间更改工作表选择。范围:
  • sheet_number您要导入的工作表的编号应该在这里指定。范围:整数
  • sheet_name您想要导入的工作表的名称应该在这里指定。范围:字符串
  • imported_cell_range此参数为必选参数。这里给出了要从指定工作表导入的单元格范围。它以'xm:yn'格式指定,其中'x'是range的第一个单元格的列,'m'是range的第一个单元格的行,'y'是range的最后一个单元格的列,'n'是range的最后一个单元格的行。'A1:E10'将选择从第1行到第10行的前5列的所有单元格。范围:
  • first_row_as_names如果此选项设置为true,则假定Excel文件的第一行具有属性的名称。然后自动命名属性,Excel文件的第一行不被视为数据行。范围:布尔
  • 注释如果第一行为姓名参数未设置为true,则可以使用该参数的“编辑列表”按钮添加注释,该按钮将打开一个新菜单。此菜单允许您选择任意行并为其分配注释。名字评论单位可以分配注释。如果第0行被分配名字注释,它相当于设置第一行为姓名参数设置为true。如果要忽略任何行,可以将它们注释为评论范围:
  • date_format日期和时间格式在这里指定。存在许多预定义的选项;用户还可以指定新的格式。如果Excel文件列中的文本与此日期格式匹配,则该列将自动转换为日期类型。中会自动进行一些更正日期类型值。例如,值'32-March'将自动转换为'1-April'。包含不能被解释为数字的值的列将被解释为标称的,只要它们不匹配的日期和时间模式日期格式参数。如果是这样,Excel文件的这一列将自动解析为日期而对应的属性是of日期类型。范围:
  • time_zone这是一个专家参数。提供了一个长长的时区列表;用户可以选择其中的任何一个。范围:
  • 语言环境这是一个专家参数。提供了一长串区域设置列表;用户可以选择其中的任何一个。范围:
  • read_all_values_as_polynominal此选项允许您禁用此操作符的类型处理。每个列都将作为多标称属性读取。在生成属性操作符中使用'date_parse(86400000 * (parse(date_attribute) - 25569))' (- 24107 for Mac excel 2007)来解析excel日期。范围:布尔
  • data_set_meta_data_information这个选项很重要。它允许您调整从指定的Excel文件创建的ExampleSet的元数据。列索引名字类型角色可以在这里指定。Read Excel操作符尝试通过读取前几行并检查出现的值来确定属性的适当类型。如果所有值都是整数,则属性将变为整数。类似地,如果所有值都是实数,则属性将变为type真正的。包含不能被解释为数字的值的列将被解释为标称的,只要它们不匹配的日期和时间模式日期格式参数。如果是这样,Excel文件的这一列将自动解析为日期而对应的属性将是type日期。可以使用此参数覆盖自动确定的类型。范围:
  • read_not_matching_values_as_missings如果此值设置为true,则与预期值类型不匹配的值将被视为缺失值,并由'?'替换。例如,如果'abc'写在an中整数列时,它将被视为缺失值。问号(?)或Excel文件中的空单元格也被读取为缺失值。范围:布尔
  • data_management这是一个专家参数。提供了一长串清单;用户可以从这个列表中选择任何选项。范围:

教程的过程

从Excel文件中读取ExampleSet

在这个示例过程中,我们首先将'Golf'数据集存储在'%{tempdir}/ Golf .xlsx'下。数据集被复制到Excel文件的表1上,因此表号参数的值为1。工作表的第一个单元格是A1,最后一个需要的单元格是E15,因此导入的单元格范围参数提供值'A1:E15'。由于工作表的第一行包含属性的名称,因此将检查第一行作为名称参数。其余参数使用默认值。运行该流程,您将看到与使用Retrieve操作符从Repository检索“Golf”数据集几乎相同的结果。但是,您将看到元数据中的不同之处,例如,这里的属性类型和角色与“Golf”数据集中的属性类型和角色不同。您可以使用数据集元数据信息参数更改属性的角色和类型。确保所有属性都是所需的角色和类型总是好的。在本例中,您想要做的一个重要更改是更改Play属性的角色。 Its role should be changed to label if you want to use any classification operators on this data set.