如何正确使用循环亚马逊S3

AustinT · 2016年10月

社区,

我试图使用“循环亚马逊S3”操作符从S3提取数据。这是Twitter数据，数据文件嵌套得非常深——例如:raw_data/2016/10/11/16/file_1.txt

我一定没有正确配置它，因为RM告诉我“输入丢失....”如果我把操作符指向更高的目录，比如“10”，这个过程会运行很长时间才会出现错误。如果我把它指向像“16”这样的目录(即我所有文件所在的目录)，它仍然会给出一个错误。

我怀疑我需要自定义“宏”字段，但是字段的描述没有任何意义。目前，“文件名”、“文件路径”和“父路径”宏字段包含默认值。

我的布局是这样的:[Loop Amazon S3] -> [Read Document] -> [JSON to Data] -> results

谢谢你的帮助! 2016-10-12 07 _00_22-clipboard.png 2016-10-12 06 _59_58-clipboard.png

mmichel · 2016年10月

嗨AustinT,

“Loop Amazon S3”是一个元操作符。因此，您需要在操作符本身中提供子流程。

通过双击操作符并将其他操作符(读取文档和JSON到数据)移动到“Loop Amazon S3”操作符中来完成。

你应该是这样结束的:

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 7.2.003”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >



<过程扩展= " true " >







> < /过程
< /操作符>




> < /过程
< /操作符>
> < /过程

欢呼,

马塞尔

AustinT · 2016年10月

谢谢你反应这么快，马塞尔。下面是Loop Amazon S3操作符中的子流程。我选择了一个非常接近“节点”的目录(可以这么说)，所以我预计操作符不会运行很长时间。它还在运行，所以当我有结果的时候我会回来检查的。再次感谢

2016-10-13 08年_54_17-clipboard.png

编辑:虽然它运行了一段时间，它工作得很好!接下来要解决的问题是文本编码并将结果合并到一个数据集中。我是初学者!再次感谢

mmichel · 2016年10月

嗨AustinT,

很高兴听到你的流程有效。根据文件编号和您的互联网连接，完成此过程可能需要一些时间。

这只是流程设计阶段的一个快速提示。您不希望在编辑流程时每次都执行Loop Amazon操作符，因此只需通过使用Store操作符保存操作符的结果。之后，您就可以使用Retrieve操作符加载结果了。因此，在设计阶段，只使用Retrieve操作符而不是Loop Amazon操作符。否则你会浪费很多时间;-)

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

如何正确使用循环亚马逊S3

最佳答案

答案