在Hadoop上使用Radoop“存储在Hive中”时自定义存储处理程序

bhupendra_patilbhupendra_patil 管理员、员工、会员职位:168RM数据科学家

当使用RapidMiner Radoop“存储在Hive”操作符时,可能需要使用一些自定义存储处理程序。

存储处理程序使Hive能够访问由其他系统存储和管理的数据。

RapidMiner的“存储在Hive”操作符提供了很大的灵活性,当涉及到保存数据在Hive或外部表在Amazon S3的HDFS。

此外,自定义存储句柄可以允许您使用Hypertable, Cassandra, JDBC, MongoDB, Google Spreadsheets在这里

要启用自定义存储,请确保您具有如下所示的高级参数。

现在单击“Custom Storage”复选框来探索使用自定义存储处理程序的选项

2016-08-04 18_50_52-RapidMiner -安永流程审查和最佳实践- Meeting.png

一旦你点击“自定义存储”选项,额外的选项如下所示。

当提供自定义存储句柄时,您需要确保它必须存在于hive服务器的CLASSPATH中。

2016-08-04 19 _26_08-cortana.png

然后可以通过单击“Edit List”按钮添加用户定义的SerDe属性。

请注意,SerDe属性是区分大小写的

2016-08-04 19_28_14-_new process__ - RapidMiner Studio Developer 7.2.000 @ RMUS-BPATIL.png

下载Rapidminer Radoop免费今天从http://bit.ly/RadoopDL

    登录注册置评。