类别

版本

使用Google云服务连接器

本指南针对RapidMiner Studio 9.3引入的新连接管理。

有关旧的遗留谷歌云存储连接,请参阅9.2文档

Google Cloud Services Connector允许你直接从RapidMiner Studio访问你的Google Cloud Storage,或者查询你存储在Google BigQuery中的数据(后者需要数据库内处理图标数据库内处理扩展,你可以下载来自市场

对于谷歌云存储来说,两者都有支持操作。你也可以从一组文件中读取在谷歌云存储目录中,使用谷歌存储图标循环谷歌存储操作符。本文档将指导您如何:

连接到你的谷歌云存储帐户

在使用Google Cloud Storage连接器之前,必须配置一个新的Google Cloud Services连接。为此,您需要您的帐户的连接详细信息。这包括一个项目ID和一个访问令牌,或者一个服务帐户的私钥。

  1. 在RapidMiner Studio中,右键单击要存储Google云服务连接的存储库并选择新建连接图标创建连接

    你也可以点击连接>创建连接新建连接图标然后选择存储库从下面对话框的下拉菜单中。

  2. 为新连接设置一个名称连接类型谷歌图标谷歌云服务,然后点击创建图标创建

  3. 在设置选项卡上,填写您的Google Cloud帐户的连接详细信息。您有两个可选选项,请参阅接下来的两个步骤了解详细信息。

  4. 你可以使用访问令牌当你允许RapidMiner访问你的谷歌云账户时,你会得到一个同意屏幕。这是默认选项。离开使用服务帐户未选中并按照以下步骤操作。

    1. 在……的右边访问令牌字段,单击Id图标按钮,以选择要与访问令牌一起使用的服务(即访问范围)。

    2. 选择您希望在此连接中使用的服务。如果您已安装数据库内处理图标数据库内处理扩展, Google BigQuery将作为选项显示在这里。

    3. 点击请求访问令牌网站图标在浏览器中打开谷歌网站。如果你还没有登录到你的谷歌云帐户,你现在必须这样做。您可以通过点击来手动复制URL显示URL

    4. 点击允许让RapidMiner访问您的Google Cloud帐户并生成令牌。这将把您带到一个可以看到访问令牌的页面。复制屏幕上显示的代码。

    5. 返回到RapidMiner Studio,输入访问令牌,然后单击完整的图标完整的

    6. 指定项目ID用于连接。

  5. 另外,你可以建立一个服务帐户为了你的项目。在这种情况下,检查使用服务帐户标记并遵循以下步骤。

    1. 在设置了Service帐户之后,为它创建并下载一个JSON密钥。使用文件选择器按钮文件选择器图标在旁边私钥文件内容字段选择包含该键的JSON文件。或者,您可以将整个JSON文件内容(例如,使用文本编辑器和剪贴板)粘贴到私钥文件内容字段。

    2. 单击文件选择器图标编辑访问范围…按钮,并选择您希望在此连接中使用的服务。如果您已安装数据库内处理图标数据库内处理扩展, Google BigQuery将作为选项显示在这里。

    3. 指定项目ID用于连接。

  6. 虽然不是必需的,但我们建议您通过点击连接测试图标测试连接按钮。如果测试失败,请检查详细信息是否正确。请注意,如果为此连接选择了多个Google Cloud服务,则如果我们能够成功地连接到至少一个所选服务,则测试将成功。

  7. 点击Save图标保存保存连接并关闭编辑连接对话框。现在您可以开始使用Google Cloud Storage操作符了。

从谷歌云存储读取

谷歌存储图标阅读谷歌存储操作员从你的谷歌云存储帐户读取数据。操作符可用于加载任意文件格式,因为它只下载而不处理文件。要处理这些文件,您需要使用额外的操作符,例如读CSV读取Excel,或读取XML

让我们从读一个简单的csv文件从谷歌云存储。

  1. 拖一个阅读谷歌存储操作员进入流程面板。选择您的谷歌云服务连接连接条目的参数。连接的存储库的文件夹存储库选择器图标旁边的按钮:

    或者,您可以将Google Cloud Services Connection从存储库拖到流程面板并将结果运算符与阅读谷歌存储操作符。

  2. 点击文件选择器按钮文件选择器图标来查看你的谷歌云存储账户中的文件。选择要加载的文件并单击文件选择器图标开放。注意,您需要storage.buckets.list项目上的权限,以便能够列出桶并使用文件选择器。如果您没有该权限,请在参数字段中键入要直接读取的路径。

    如上所述,谷歌存储图标阅读谷歌存储操作符不处理指定文件的内容。在我们的例子中,我们选择了acsv文件(一个逗号分隔值文件)。此文件类型可以通过读CSV操作符。

  3. 添加一个读CSV之间的算子谷歌存储图标阅读谷歌存储操作符和结果端口。您可以设置的参数读CSV操作符-例如列分隔符-取决于您的CSV文件的格式:

  4. 运行运行过程这个过程!在结果透视图,您应该看到一个包含所选CSV文件的行和列的表:

您现在可以使用更多的操作符来处理此文档,例如,确定某些事件的共性。要将结果写回Google Cloud Storage,可以使用谷歌存储图标写入谷歌存储操作符。对象使用相同的连接类型谷歌存储图标阅读谷歌存储操作符和具有类似的界面。你也可以从一组文件中读取在谷歌云存储目录中,使用谷歌存储图标循环谷歌存储操作符。为此,您需要指定连接条目文件夹,以及使用嵌套操作符的处理循环的步骤。要了解更多细节,请阅读谷歌存储图标循环谷歌存储操作符。