类别

版本

您正在查看的是RapidMiner Radoop 9.2 -版本文档查看最新版本

Hadoop数据视图

RapidMiner Radoop的Hadoop数据view是一个易于使用的客户端,用于管理Hive服务器上的数据。在视图中,您可以浏览(使用Hadoop Data浏览器)、管理数据库对象、执行SQL语句、从对象或查询结果中获取数据示例,以及使用高级图表绘制数据。

请注意:该视图和RapidMiner Radoop进程可以像连接Hive服务器一样连接和使用Impala。您可能会发现Impala连接比Hive更快。

控件中的三个主要面板Hadoop数据视图- - - - - -Hadoop数据面板(Hive Objects)Hadoop数据日志,以及Hadoop的元数据面板:

Hadoop数据面板

Hadoop数据面板是安装RapidMiner Radoop时可用的面板。使用它浏览文件、表和视图、进程和连接:

这里描述的功能可以通过Hadoop Data面板中的按钮和/或右键单击连接、Hive对象或Hadoop Data面板中的空白区域来获得。使用SHIFT或CTRL同时使用鼠标按钮或方向键选择多个对象或连接。

按钮操作

Hadoop Data面板顶部有以下按钮:

测试

按钮 的名字
连接 连接
汽车描述 汽车描述
刷新 刷新
导入数据 导入数据
SQL查询 SQL查询

菜单操作

右键单击连接、Hive对象或Hadoop Data面板中的空白区域,可以执行以下菜单操作:

菜单项
连接
管理连接
刷新连接列表
刷新对象
清理临时数据
执行查询
进口
创建过程

请注意:连接而且清理临时数据操作仅在选择连接或对象时可用。

连接操作

下面的操作提供了处理表或视图的工具。

连接操作

Hadoop数据面板,您可以同时连接多个集群。使用连接“连接”按钮,用于添加新连接或修改连接设置。在菜单中,使用管理连接添加或编辑连接的操作。活动连接在Hadoop数据面板中以粗体显示。

要浏览Hive实例的数据库对象,双击所选连接名称或右键单击并选择连接从弹出式菜单。Radoop首先测试连接,在测试成功之后,从Hive检索元数据(对象列表)。表和视图显示在Hadoop Data面板中探索查询重命名,或删除任何一个物体。

自动描述动作

连接到集群后,RapidMiner Radoop会检索Hive对象列表。如果汽车描述汽车描述模式启用时,客户端立即检索所有对象的详细信息。因为如果您有许多Hive对象,这可能会很耗时汽车描述“设置”已禁用。您可以使用筛选文本字段左侧的按钮启用它。当禁用时,对象列表获取非常快,但Hive对象的类型和属性只有在展开对象或右键单击它打开操作菜单时才可见。

搜索行动

搜索功能在Hadoop Data面板(不是菜单)中可用。Hive表和视图连同它们的属性一起显示在Hive Object Browser中。您可以展开和折叠连接条目以及Hive对象。在过滤字段中输入搜索词,只显示匹配的对象;用输入字段右侧的图标清除过滤器。筛选器适用于所有连接。

刷新对象动作

刷新对象行动或刷新按钮清除,然后刷新,对象列表和对象的元数据从选定的Hive服务器连接或对象。如果没有选择连接,则该操作将刷新所有活动连接的对象。要刷新连接列表,请使用菜单的刷新连接列表行动。

重新加载黑斑羚元数据动作

仅适用于黑斑羚连接。与单个Hive服务器相比,通常有多个Impala守护进程。使用Impala连接对对象的每个更改都立即反映在Hive中。但是,通过Hive连接(Hive服务器)所做的更改不会立即通过Impala连接可见。方法必须显式调用重新加载Impala元数据使用Hive Metastore Server中的元数据更新Impala。动作完成后,每个Hive对象在Impala中都是可用的。

进口操作

方法将数据导入集群进口“数据导入向导”按钮进口…行动。您可以选择本地文件系统、HDFS或Amazon S3上的文本文件,将其内容导入到集群的Hive表中。您可以定义列分隔符、编码和其他设置,以及目标属性类型和表名。该向导基本上与Radoop的向导相同读CSV操作符,但是使用这个独立的导入器,您不需要为操作创建进程。但是,如果导入是一个重复的任务,那么可以考虑创建一个流程。

执行查询…行动

使用此操作(菜单)或按钮(查询)你可以:

  • 对选定的Hive实例执行有效的SQL (HiveQL)语句。如果语句是一个查询,Radoop将从结果中获取一个数据样本到客户机的内存中。

  • 使用图形界面检查和绘制数据。

  • 在执行查询之前更改默认的数据样本大小(限制)。

  • 执行有效的DDL或DML语句。

此外,您还可以打开表达编辑器Hive表达式编辑器对话框提供了一个易于使用的表达式构建器,它可以为SELECT语句中的列创建表达式。编辑器包含大量的Hive函数和操作符,以及它们的参数列表和简短的描述。方法验证更复杂的查询是一种良好的实践检查检查表达式按钮,然后将其发送到Hive实例运行箭头运行查询…按钮。(当然,成功的检查并不能保证查询成功。)

可以向查询文本字段编写多个SQL语句。用分号分隔;Radoop选择(验证或执行)游标下的语句。这两个运行箭头运行查询…而且检查检查表达式操作应用于游标下的单个语句。要运行多条语句(以分号分隔),请使用运行所有运行所有语句…按钮。该操作假设最后一条语句是一个查询,如果它返回一个结果集,则该操作将显示它。

在查询执行期间,可以取消使用取消图标取消查询按钮。这将向集群发送一个kill命令,停止该查询发起的所有作业。

看到Hive语言手册查看类似sql的Hive Query语言的完整文档。

创建流程:检索操作

此操作只能通过菜单进行,是流程设计的良好起点。它创建一个简单的Radoop进程,插入一个检索的运算符。Radoop巢.然后,您可以继续使用此表或视图中的数据设计流程。

清理临时数据动作

在进程运行期间,Radoop会创建临时的Hive表和视图。类中定义的字符串作为这些临时对象的前缀Radoop巢表前缀参数(Radoop_默认)或table.prefix设置.对象将在进程结束时删除Radoop巢清洁参数为true(默认值)。然而,由于断点或错误,一些临时对象可以保留在集群上,即使在清洁设置为true。清洁所有临时数据,使用菜单的清理临时数据行动。弹出的对话框将询问“回溯”多少天,这意味着它只考虑比这个间隔更早的对象。中更详细地描述了该操作操作与维护部分的安装指南。

您还可以轻松地从Hadoop Data面板中删除。使用filter字段仅显示与特定前缀匹配的临时对象,然后使用SHIFT键将它们全部选中。删除所选对象与DEL按钮或删除对象右键单击弹出菜单中的操作。

研究对象

下面的操作可以帮助您使用Hive表或视图。要访问它们,请在连接中右键单击表或视图。

探索

在浏览Hive表时,Radoop从所选的表(或视图)中获取数据样本到客户端的操作内存中,并以表格格式显示。(您应该对Studio的这种格式很熟悉结果视图,您可以在其中探索ExampleSet过程输出。)该操作还允许您根据示例绘制数据并创建高级图表。你可以控制数据样本(最大)大小或使用浏览前N行操作并显式定义行数。

点击几下即可可视化您的数据(示例):

显示查询(仅适用于Hive视图

Hive视图是基于其他表或视图存储的SQL查询。方法检查此查询显示查询行动。探索Hive视图类似于从Hive表中获取数据。不同之处在于,在将数据样例读取到客户端机器之前,服务器首先执行视图的查询(所需时间取决于查询的复杂性)。检查结果的方法与检查普通Hive表中的数据样本的方法相同。

数行

统计Hive表或视图中的行数。请注意,这可能需要一些时间才能完成。结果显示在一个小的弹出窗口中。

删除和重命名

通过这些操作,您可以轻松地删除或重命名Hive表或视图。您也可以重命名Hive表的属性。注意,删除Hive对象不能被撤消。

Hadoop元数据面板

Hadoop的元数据面板中提供有关您在Hadoop数据面板,包括指向集群监控页面的链接。

如果您没有连接到集群,则链接指向默认监控页面(端口8088,用于资源管理器端口50070用于NameNode网络接口)。如果已连接,则链接指向为您的集群配置的实际web界面。

Hadoop数据日志面板

Hadoop数据日志面板显示正在进行的操作的信息。您可以搜索和保存日志文本,方法与保存流程日志相同。

属性可以取消任何操作取消按钮。点击此按钮试图停止(杀死)集群上所有正在运行的远程操作。请注意,这可能需要一段时间才能完成。