看起来你是新来的。登录或注册开始。
如果有一个操作符可以从HDFS读取文件,而不需要在hive中定义模式,那就太棒了。
然后,它应该像Open file操作符对本地文件、URL和Repository Blob条目所做的那样提供文件。
在这个新的操作符中应该使用user和kerberos等HDFS安全特性。
其中一个应用程序是处理来自集群的XML或JSON文件。
这对于进程下推很有用,因为可以在集群中处理各种文件类型。
来自PM: Radoop基本上依赖于Hive表来处理exampleset,或者更确切地说,类似于exampleset的、基于行的数据单元。换句话说,数据单元是“表行”,而不是文件,数据单元是数据的分割和并行处理的基础。更改代码,使其能够在文件级别上工作,这将是一个相当昂贵的努力,但我们正在为下一次迭代的Radoop奠定概念,我们将以支持基于文件的操作的方式构建它。刺激- 761
不仅仅是简单的JSON或XML,图像文件也是如此。
你好,
我同意,这将使RM更加有用,成为体系结构中真正的核心。当然,还应该添加一个写文件(HDFS)操作符
问候,
塞巴斯蒂安。
评论
不仅仅是简单的JSON或XML,图像文件也是如此。
你好,
我同意,这将使RM更加有用,成为体系结构中真正的核心。当然,还应该添加一个写文件(HDFS)操作符
问候,
塞巴斯蒂安。