使用Azure Data Lake存储Gen1连接器
本指南针对RapidMiner Studio 9.3引入的新连接管理。
有关旧的遗留Azure数据湖存储连接,请参阅9.2文档
本指南针对Gen1 Azure数据湖存储架构。有关更新的存储体系结构,请参阅代的文档
Azure Data Lake Storage Gen1连接器允许您直接从RapidMiner Studio访问Azure Data Lake Storage Gen1帐户。这两个读而且写支持操作。你也可以从一组文件中读取在Azure数据湖存储目录中,使用环Azure数据湖存储Gen1操作符。本文档将指导你如何:
连接到Azure数据湖存储Gen1帐户
在使用Azure数据湖存储Gen1连接器之前,您必须配置Azure环境以支持远程连接,并在RapidMiner中设置新的Azure数据湖存储Gen1连接。
为此,您需要执行以下主要步骤(请参阅下面的详细信息)。
- 在Azure门户上创建一个web应用程序注册。
- 获取远程连接信息。
- 在RapidMiner中设置并测试新的Azure数据湖存储Gen1连接。
步骤1:在Azure门户上创建一个web应用程序注册
创建并配置Azure AD web应用程序,以允许使用Azure Active Directory使用Azure Data Lake Storage Gen1进行服务对服务身份验证。经过步骤1来步骤3的服务到服务认证指南。第一步注册一个web应用程序,该应用程序将为RapidMiner提供对Azure数据湖存储的访问。的值可以使用任意值的名字而且登录网址字段。第二步描述如何获取租户ID、已注册应用程序的应用程序ID以及需要在RapidMiner中提供的密钥,以便它能够使用该应用程序。第三步配置这个Active Directory应用程序,使其能够访问数据湖存储。
在Azure Tenant中执行这些步骤之后,您应该拥有一个web应用程序注册,配置为访问目标Azure数据湖存储Gen1资源的部分或所有文件夹。注意,要使RapidMiner操作符的文件浏览器(见下文)工作,您需要给出读而且执行根目录上的访问权限,以及要允许导航的所有目录上的访问权限。除此之外,你需要写允许从RapidMiner写入云存储。如果可以在没有文件浏览器的情况下工作,则可以将权限限制到操作人员直接使用的目标文件夹/文件。
步骤2:获取远程连接信息
在RapidMiner中创建连接之前,需要获取以下信息。前面的步骤和链接指南描述了如何获取它们,但是让我们在这里重复这些细节的直接链接。
- 标识公司帐户的租户ID。获取租户ID。
- 您帐户的完全限定域名。示例:如果Azure数据湖存储Gen1被命名
contoso
,则FQDN为contoso.azuredatalakestore.net
默认情况下。 - 您创建的Web应用程序的应用程序ID和应用程序键。获取应用程序ID和身份验证密钥。
步骤3:在RapidMiner中设置和测试新的Azure数据湖存储Gen1连接
有了所有信息后,在RapidMiner中建立连接就很简单了。
在RapidMiner Studio中,右键单击要存储Azure数据湖存储Gen1连接的存储库并选择创建连接。
你也可以点击连接>创建连接并选择存储库在下面的对话框中。
为新连接指定一个名称,并设置连接类型来Azure数据湖存储Gen1:
点击创建然后切换到设置页中的编辑连接对话框。
填写Azure数据湖存储Gen1帐户的连接详细信息。指定承租者ID,账户FQDN(完全限定域名),客户机ID(web应用程序ID),客户的关键(访问web应用程序的密码)。
虽然不是必需的,但我们建议通过单击测试连接按钮。如果测试失败,请检查详细信息是否正确。
点击保存保存连接并关闭编辑连接对话框。现在可以开始使用Azure数据湖存储操作符了。
从Azure数据湖存储读取
的阅读Azure数据湖存储Gen1操作员从您的Azure数据湖存储Gen1帐户读取数据。该操作符可用于加载任意格式的文件,因为它只下载而不处理文件。要处理这些文件,您需要使用额外的操作符,例如读CSV,读取Excel,或读取XML。
让我们从简单的阅读开始csvAzure数据湖存储中的文件。
拖一个阅读Azure数据湖存储运算符流程面板。选择Azure数据湖存储Gen1连接连接条目参数从存储库的Connections文件夹中删除旁边的按钮:
或者,您可以将Azure数据湖存储Gen1连接从存储库拖到流程面板并将生成的运算符与阅读Azure数据湖存储Gen1操作符。
点击文件选择器按钮以查看Azure数据湖存储Gen1帐户中的文件。选择需要加载的文件,单击开放。请注意,您需要读而且执行访问根目录,如果要使用文件浏览器就要从根文件夹开始。如果您没有该权限,则可以在参数字段中键入路径。如果您可以访问该路径(文件或目录)的父文件夹和执行访问到根文件夹,就可以打开文件浏览器了。或者您总是可以使用手动键入的路径并使用操作符(在这种情况下,权限只在运行时检查)。
如上所述,阅读Azure数据湖存储Gen1操作符不处理指定文件的内容。在我们的例子中,我们选择了acsv文件(一个用逗号分隔的值文件)。方法处理此文件类型读CSV操作符。
添加一个读CSV之间的运算符阅读Azure数据湖存储Gen1运算符和结果端口。的参数读CSV操作符-例如列分隔符-,这取决于您的CSV文件的格式:
运行这个过程!在结果透视图,您应该看到一个包含所选CSV文件的行和列的表:
现在,您可以使用进一步的操作符来处理该文档,例如,确定某些事件的共性。要将结果写回Azure数据湖存储,可以使用写入Azure数据湖存储Gen1操作符。的连接类型使用相同的连接类型阅读Azure数据湖存储Gen1操作符,并具有类似的接口。你也可以从一组文件中读取在Azure数据湖存储目录中,使用环Azure数据湖存储Gen1操作符。为此,您需要指定连接条目和文件夹以及带有嵌套操作符的处理循环的步骤。如需更多详情,请参阅循环Azure数据湖存储操作符。