类别

版本

使用Cassandra连接器

本指南针对RapidMiner Studio 9.3引入的新连接管理。

有关旧Legacy Cassandra连接,请参阅9.2文档

Cassandra连接器允许您连接到NoSQL数据库Cassandra直接从RapidMiner Studio。它支持所有CRUD操作(创建更新,删除),以及运行更复杂的数据库命令。本文档将指导你如何:

安装NoSQL连接器扩展

首先,你需要安装NoSQL扩展:

连接到Cassandra集群

在使用Cassandra连接器之前,必须配置一个新的Cassandra连接。为此,您需要数据库的连接详细信息(主机名、端口和密钥空间名称)。如果您的Cassandra安装需要身份验证,那么还需要有效的凭据。

  1. 在RapidMiner Studio中,右键单击要存储Cassandra连接的存储库并选择新建连接图标创建连接

    你也可以点击连接>新建连接图标创建连接并选择存储库在下面的对话框中。

  2. 为新连接输入一个名称并进行设置连接类型卡桑德拉的图标卡珊德拉

  3. 点击创建图标创建然后切换到设置页中的编辑连接对话框。

  4. 填写Cassandra集群的连接细节:

    预配置的端口是Cassandra使用的默认端口。注意,Cassandra默认情况下不需要用户身份验证。

    虽然不是必需的,但我们建议通过单击连接测试图标测试连接按钮。如果测试失败,请检查详细信息是否正确。

  5. 点击Save图标保存保存连接并关闭编辑连接对话框。

您现在可以将新创建的连接与所有Cassandra操作符一起使用!

卡桑德拉

读卡珊德拉操作符允许从Cassandra表中读取数据。

  1. 打开一个新进程新进程图标在RapidMiner Studio中,拖动读卡珊德拉运算符过程视图,并将其输出端口连接到流程的结果端口:为连接条目参数从存储库的Connections文件夹中删除存储库选择器图标旁边的按钮:

    或者,您可以将Cassandra连接从存储库拖到流程面板并将生成的运算符与读卡珊德拉操作符。

  2. 定义查询一致性级别。对于3节点以下的集群,建议设置为一个.否则使用默认值法定人数

  3. 定义查询类型(查询查询文件,或表格).如果你愿意表格,另一个参数将显示哪些表将被填充为可用表。

  4. 运行运行过程这个过程!在Result Perspective中,您应该看到从Cassandra加载的示例集。在我们的示例中,示例集包含RapidMiner Studio的交易样本数据集:

给卡桑德拉写信

写卡珊德拉操作符允许将数据写入Cassandra表。作为Cassandra数据存储系统的要求,每个数据行都需要用唯一的ID标识(可以由一个或多个列组成)。下面的示例说明如何将RapidMiner Studio的一个示例数据集写入一个新的Cassandra表。

  1. 打开一个新进程新进程图标在RapidMiner Studio。

  2. 拖动虹膜样本数据集和写卡珊德拉运算符过程如下面的屏幕截图所示,查看并连接操作符。选择Cassandra连接并为新连接输入一个名称表格

    注意,您也可以选择一个现有的表。

    然后Cassandra将使用新数据更新表(如果新数据的模式与所选Cassandra表模式匹配)。这也意味着在向Cassandra写入数据时必须小心,因为与新数据具有相同唯一ID的数据将被覆盖。

  3. 连接写卡珊德拉操作符到结果端口并运行运行过程这个过程!