如何正确使用循环亚马逊S3
社区,
我试图使用“循环亚马逊S3”操作符从S3提取数据。这是Twitter数据,数据文件嵌套得非常深——例如:raw_data/2016/10/11/16/file_1.txt
我一定没有正确配置它,因为RM告诉我“输入丢失....”如果我把操作符指向更高的目录,比如“10”,这个过程会运行很长时间才会出现错误。如果我把它指向像“16”这样的目录(即我所有文件所在的目录),它仍然会给出一个错误。
我怀疑我需要自定义“宏”字段,但是字段的描述没有任何意义。目前,“文件名”、“文件路径”和“父路径”宏字段包含默认值。
我的布局是这样的:[Loop Amazon S3] -> [Read Document] -> [JSON to Data] -> results
谢谢你的帮助!
0
最佳答案
-
mmichel 员工,成员职位:129RM工程
嗨AustinT,
“Loop Amazon S3”是一个元操作符。因此,您需要在操作符本身中提供子流程。
通过双击操作符并将其他操作符(读取文档和JSON到数据)移动到“Loop Amazon S3”操作符中来完成。
你应该是这样结束的:
<?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.2.003”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
<过程扩展= " true " >
<过程扩展= " true " >
> < /过程
< /操作符>
> < /过程
< /操作符>
> < /过程欢呼,
马塞尔
0
答案
谢谢你反应这么快,马塞尔。下面是Loop Amazon S3操作符中的子流程。我选择了一个非常接近“节点”的目录(可以这么说),所以我预计操作符不会运行很长时间。它还在运行,所以当我有结果的时候我会回来检查的。再次感谢
编辑:虽然它运行了一段时间,它工作得很好!接下来要解决的问题是文本编码并将结果合并到一个数据集中。我是初学者!再次感谢
嗨AustinT,
很高兴听到你的流程有效。根据文件编号和您的互联网连接,完成此过程可能需要一些时间。
这只是流程设计阶段的一个快速提示。您不希望在编辑流程时每次都执行Loop Amazon操作符,因此只需通过使用Store操作符保存操作符的结果。之后,您就可以使用Retrieve操作符加载结果了。因此,在设计阶段,只使用Retrieve操作符而不是Loop Amazon操作符。否则你会浪费很多时间;-)