类别

版本

使用Azure Data Lake存储Gen1连接器

本指南针对RapidMiner Studio 9.3引入的新连接管理。

有关旧的遗留Azure数据湖存储连接,请参阅9.2文档

本指南针对Gen1 Azure数据湖存储架构。有关更新的存储体系结构,请参阅代的文档

Azure Data Lake Storage Gen1连接器允许您直接从RapidMiner Studio访问Azure Data Lake Storage Gen1帐户。这两个而且支持操作。你也可以从一组文件中读取在Azure数据湖存储目录中,使用Azure数据湖图标环Azure数据湖存储Gen1操作符。本文档将指导你如何:

连接到Azure数据湖存储Gen1帐户

在使用Azure数据湖存储Gen1连接器之前,您必须配置Azure环境以支持远程连接,并在RapidMiner中设置新的Azure数据湖存储Gen1连接。

为此,您需要执行以下主要步骤(请参阅下面的详细信息)。

  • 在Azure门户上创建一个web应用程序注册。
  • 获取远程连接信息。
  • 在RapidMiner中设置并测试新的Azure数据湖存储Gen1连接。

步骤1:在Azure门户上创建一个web应用程序注册

创建并配置Azure AD web应用程序,以允许使用Azure Active Directory使用Azure Data Lake Storage Gen1进行服务对服务身份验证。经过步骤1步骤3服务到服务认证指南。第一步注册一个web应用程序,该应用程序将为RapidMiner提供对Azure数据湖存储的访问。的值可以使用任意值的名字而且登录网址字段。第二步描述如何获取租户ID、已注册应用程序的应用程序ID以及需要在RapidMiner中提供的密钥,以便它能够使用该应用程序。第三步配置这个Active Directory应用程序,使其能够访问数据湖存储。

在Azure Tenant中执行这些步骤之后,您应该拥有一个web应用程序注册,配置为访问目标Azure数据湖存储Gen1资源的部分或所有文件夹。注意,要使RapidMiner操作符的文件浏览器(见下文)工作,您需要给出而且执行根目录上的访问权限,以及要允许导航的所有目录上的访问权限。除此之外,你需要允许从RapidMiner写入云存储。如果可以在没有文件浏览器的情况下工作,则可以将权限限制到操作人员直接使用的目标文件夹/文件。

步骤2:获取远程连接信息

在RapidMiner中创建连接之前,需要获取以下信息。前面的步骤和链接指南描述了如何获取它们,但是让我们在这里重复这些细节的直接链接。

  1. 标识公司帐户的租户ID。获取租户ID
  2. 您帐户的完全限定域名。示例:如果Azure数据湖存储Gen1被命名contoso,则FQDN为contoso.azuredatalakestore.net默认情况下。
  3. 您创建的Web应用程序的应用程序ID和应用程序键。获取应用程序ID和身份验证密钥

步骤3:在RapidMiner中设置和测试新的Azure数据湖存储Gen1连接

有了所有信息后,在RapidMiner中建立连接就很简单了。

  1. 在RapidMiner Studio中,右键单击要存储Azure数据湖存储Gen1连接的存储库并选择新建连接图标创建连接

    你也可以点击连接>创建连接新建连接图标并选择存储库在下面的对话框中。

  2. 为新连接指定一个名称,并设置连接类型Azure数据湖图标Azure数据湖存储Gen1

  3. 点击创建图标创建然后切换到设置页中的编辑连接对话框。

  4. 填写Azure数据湖存储Gen1帐户的连接详细信息。指定承租者ID账户FQDN(完全限定域名),客户机ID(web应用程序ID),客户的关键(访问web应用程序的密码)。

  5. 虽然不是必需的,但我们建议通过单击连接测试图标测试连接按钮。如果测试失败,请检查详细信息是否正确。

  6. 点击Save图标保存保存连接并关闭编辑连接对话框。现在可以开始使用Azure数据湖存储操作符了。

从Azure数据湖存储读取

Azure数据湖图标阅读Azure数据湖存储Gen1操作员从您的Azure数据湖存储Gen1帐户读取数据。该操作符可用于加载任意格式的文件,因为它只下载而不处理文件。要处理这些文件,您需要使用额外的操作符,例如读CSV读取Excel,或读取XML

让我们从简单的阅读开始csvAzure数据湖存储中的文件。

  1. 拖一个阅读Azure数据湖存储运算符流程面板。选择Azure数据湖存储Gen1连接连接条目参数从存储库的Connections文件夹中删除存储库选择器图标旁边的按钮:

    或者,您可以将Azure数据湖存储Gen1连接从存储库拖到流程面板并将生成的运算符与阅读Azure数据湖存储Gen1操作符。

  2. 点击文件选择器按钮文件选择器图标以查看Azure数据湖存储Gen1帐户中的文件。选择需要加载的文件,单击文件选择器图标开放。请注意,您需要而且执行访问根目录,如果要使用文件浏览器就要从根文件夹开始。如果您没有该权限,则可以在参数字段中键入路径。如果您可以访问该路径(文件或目录)的父文件夹和执行访问到根文件夹,就可以打开文件浏览器了。或者您总是可以使用手动键入的路径并使用操作符(在这种情况下,权限只在运行时检查)。

    如上所述,Azure数据湖图标阅读Azure数据湖存储Gen1操作符不处理指定文件的内容。在我们的例子中,我们选择了acsv文件(一个用逗号分隔的值文件)。方法处理此文件类型读CSV操作符。

  3. 添加一个读CSV之间的运算符Azure数据湖图标阅读Azure数据湖存储Gen1运算符和结果端口。的参数读CSV操作符-例如列分隔符-,这取决于您的CSV文件的格式:

  4. 运行运行过程这个过程!在结果透视图,您应该看到一个包含所选CSV文件的行和列的表:

现在,您可以使用进一步的操作符来处理该文档,例如,确定某些事件的共性。要将结果写回Azure数据湖存储,可以使用Azure数据湖图标写入Azure数据湖存储Gen1操作符。的连接类型使用相同的连接类型Azure数据湖图标阅读Azure数据湖存储Gen1操作符,并具有类似的接口。你也可以从一组文件中读取在Azure数据湖存储目录中,使用Azure数据湖图标环Azure数据湖存储Gen1操作符。为此,您需要指定连接条目文件夹以及带有嵌套操作符的处理循环的步骤。如需更多详情,请参阅Azure数据湖图标循环Azure数据湖存储操作符。