类别

版本

使用Amazon S3连接器

本指南针对RapidMiner Studio 9.3引入的新连接管理。

有关旧的Legacy Amazon S3连接,请参阅9.2文档

Amazon S3连接器允许您直接从RapidMiner Studio访问Amazon S3存储。这两个支持操作。本文档将指导您如何:

连接到您的Amazon S3帐户

要配置新的Amazon S3连接,您将需要Amazon S3帐户的连接详细信息(至少需要访问密钥和密钥)。

  1. 在RapidMiner Studio中,右键单击要存储Amazon S3连接的存储库,然后选择新建连接图标创建连接

    你也可以点击连接>新建连接图标创建连接然后选择存储库从下面对话框的下拉菜单中。

  2. 输入新连接的名称并设置连接类型AWS图标Amazon S3

  3. 点击创建图标创建然后切换到设置选项卡编辑连接对话框。

  4. 填写您的Amazon S3账户的连接详情:

    请注意,Amazon S3支持任意文件夹“分隔符”(分隔嵌套文件夹的符号),例如,用于url的“/”或Microsoft Windows使用的“\”。如果配置指定了错误的分隔符,则文件夹结构可能无法在RapidMiner Studio中正确显示。不过不要担心,稍后您总是可以在连接配置中更改分隔符。

    虽然不是必需的,但我们建议通过单击连接测试图标测试连接按钮。如果测试失败,请检查详细信息是否正确。

  5. 点击Save图标保存保存连接并关闭编辑连接对话框。现在可以开始使用Amazon S3操作符了!

阅读Amazon S3

阅读Amazon S3操作符从您的Amazon S3帐户读取数据。操作符可用于加载任意文件格式,因为它只下载而不处理文件。要处理这些文件,您需要使用额外的操作符,例如阅读文档读取Excel,或读取XML

让我们从从Amazon S3读取一个简单的日志文件开始。

  1. 拖一个阅读Amazon S3操作员进入流程面板.选择您的Amazon S3连接连接条目参数,从存储库的Connections文件夹中获取存储库选择器图标旁边的按钮:

    或者,您可以将Amazon S3连接从存储库拖到流程面板并将结果运算符与阅读Amazon S3操作符。

  2. 点击文件选择器按钮文件选择器图标查看您的Amazon S3帐户中的文件。选择要加载的文件并单击文件选择器图标开放

    如上所述,阅读Amazon S3操作符不处理指定文件的内容。在我们的示例中,我们选择了一个日志文件(纯文本文件)。此文件类型可以通过阅读文档运算符的一部分文本处理扩展的RapidMiner工作室。

  3. 如果您还没有安装文本处理扩展的RapidMiner工作室,请去市场,现在这样做。然后加上阅读文档之间的算子阅读Amazon S3操作符和结果端口:

  4. 运行运行过程这个过程!在结果透视图中,您应该看到包含日志文件内容的单个文档。

您现在可以使用进一步的文本处理操作符来处理此文档,例如,确定某些事件的共性。要将结果写回Amazon S3,可以使用写Amazon S3操作符。对象使用相同的连接类型阅读Amazon S3操作符和具有类似的界面。你也可以从一组文件中读取在Amazon S3目录中,使用循环Amazon S3操作符。为此,您需要指定连接条目文件夹您想要处理的内容,以及使用嵌套操作符的处理循环的步骤。欲了解更多细节,请阅读的帮助循环Amazon S3操作符。