类别

版本

您正在查看的是RapidMiner Studio 9.2 -版本文档查看最新版本

使用Cassandra连接器

Cassandra连接器允许您连接到NoSQL数据库Cassandra直接从RapidMiner Studio。它支持所有CRUD操作(创建更新,删除),以及运行更复杂的数据库命令。本文档将指导你如何:

安装NoSQL连接器扩展

首先,你需要安装NoSQL扩展:

连接到Cassandra集群

在使用Cassandra连接器之前,必须配置一个新的Cassandra连接。为此,您需要数据库的连接详细信息(主机名、端口和密钥空间名称)。如果您的Cassandra安装需要身份验证,那么还需要有效的凭据。

  1. 打开管理连接对话框中的RapidMiner Studio通过转到管理连接图标工具>管理连接

  2. 点击添加连接添加连接图标左下角:

  3. 输入新连接的名称并选择卡桑德拉的图标卡桑德拉的连接随着连接类型

  4. 填写Cassandra集群的连接细节:

    预配置的端口是Cassandra使用的默认端口。注意,Cassandra默认情况下不需要用户身份验证。选项,可以测试新配置连接测试图标测试按钮。

  5. 点击Save图标保存所有更改保存连接并关闭管理连接窗口。

您现在可以将新创建的连接与所有Cassandra操作符一起使用!

卡桑德拉

读卡珊德拉操作符允许从Cassandra表中读取数据。

  1. 打开一个新进程新进程图标在RapidMiner Studio中,拖动读卡珊德拉运算符过程视图,并将其输出端口连接到流程的结果端口:

  2. 选项中选择Cassandra连接连接中的下拉菜单参数视图。

  3. 定义查询一致性级别。对于3节点以下的集群,建议设置为一个.否则使用默认值法定人数

  4. 定义查询类型(查询查询文件,或表格).如果你愿意表格,另一个参数将显示哪些表将被填充为可用表。

  5. 运行运行过程这个过程!在Result Perspective中,您应该看到从Cassandra加载的示例集。在我们的示例中,示例集包含RapidMiner Studio的交易样本数据集:

给卡桑德拉写信

写卡珊德拉操作符允许将数据写入Cassandra表。作为Cassandra数据存储系统的要求,每个数据行都需要用唯一的ID标识(可以由一个或多个列组成)。下面的示例说明如何将RapidMiner Studio的一个示例数据集写入一个新的Cassandra表。

  1. 打开一个新进程新进程图标在RapidMiner Studio。

  2. 拖动虹膜样本数据集和写卡珊德拉运算符过程如下面的屏幕截图所示,查看并连接操作符。选择Cassandra连接并为新连接输入一个名称表格

    注意,您也可以选择一个现有的表。

    然后Cassandra将使用新数据更新表(如果新数据的模式与所选Cassandra表模式匹配)。这也意味着在向Cassandra写入数据时必须小心,因为与新数据具有相同唯一ID的数据将被覆盖。

  3. 连接写卡珊德拉操作符到结果端口并运行运行过程这个过程!