如何正确使用循环亚马逊S3

AustinTAustinT RapidMiner注册分析师、会员职位:12因素二世
2020年6月编辑 帮助

社区,

我试图使用“循环亚马逊S3”操作符从S3提取数据。这是Twitter数据,数据文件嵌套得非常深——例如:raw_data/2016/10/11/16/file_1.txt

我一定没有正确配置它,因为RM告诉我“输入丢失....”如果我把操作符指向更高的目录,比如“10”,这个过程会运行很长时间才会出现错误。如果我把它指向像“16”这样的目录(即我所有文件所在的目录),它仍然会给出一个错误。

我怀疑我需要自定义“宏”字段,但是字段的描述没有任何意义。目前,“文件名”、“文件路径”和“父路径”宏字段包含默认值。

我的布局是这样的:[Loop Amazon S3] -> [Read Document] -> [JSON to Data] -> results

谢谢你的帮助!2016-10-12 07 _00_22-clipboard.png2016-10-12 06 _59_58-clipboard.png

最佳答案

  • mmichelmmichel 员工,成员职位:129RM工程
    解决方案接受

    嗨AustinT,

    “Loop Amazon S3”是一个元操作符。因此,您需要在操作符本身中提供子流程。

    通过双击操作符并将其他操作符(读取文档和JSON到数据)移动到“Loop Amazon S3”操作符中来完成。

    你应该是这样结束的:

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.2.003”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >



    <过程扩展= " true " >







    > < /过程
    < /操作符>




    > < /过程
    < /操作符>
    > < /过程

    欢呼,

    马塞尔

答案

  • AustinTAustinT RapidMiner注册分析师、会员职位:12因素二世

    谢谢你反应这么快,马塞尔。下面是Loop Amazon S3操作符中的子流程。我选择了一个非常接近“节点”的目录(可以这么说),所以我预计操作符不会运行很长时间。它还在运行,所以当我有结果的时候我会回来检查的。再次感谢

    2016-10-13 08年_54_17-clipboard.png

    编辑:虽然它运行了一段时间,它工作得很好!接下来要解决的问题是文本编码并将结果合并到一个数据集中。我是初学者!再次感谢

  • mmichelmmichel 员工,成员职位:129RM工程

    嗨AustinT,

    很高兴听到你的流程有效。根据文件编号和您的互联网连接,完成此过程可能需要一些时间。

    这只是流程设计阶段的一个快速提示。您不希望在编辑流程时每次都执行Loop Amazon操作符,因此只需通过使用Store操作符保存操作符的结果。之后,您就可以使用Retrieve操作符加载结果了。因此,在设计阶段,只使用Retrieve操作符而不是Loop Amazon操作符。否则你会浪费很多时间;-)

登录注册置评。