特性请求:循环存储库而不检索任何文件

christos_karraschristos_karras 成员职位:50大师
循环存储库操作符在其内部子进程中提供了一个“rep”输入,该输入提供了加载在内存中的存储库条目。这给我们的用例造成了不必要的延迟,因为我们在内部子流程中有额外的条件来决定哪些条目实际上需要加载(并且只需要其中的一小部分)。然后使用“retrieve”操作符和%{repository_path}宏检索真正需要的条目。基于正则表达式的可用过滤选项不适用于我们的用例,因为决策是基于对另一个示例集的查找。

即使我们的进程没有使用“rep”输入,RapidMiner仍然将每个匹配的存储库条目加载到内存中,这导致一个本该需要几秒钟运行的进程需要30-60分钟。

我想请求一个选项“禁用自动加载存储库条目”。这可能是一个显式的选项(复选框),或者RapidMiner可以自动检测我们不想加载条目,如果没有连接到“rep”输入。





谢谢


标记:
BalazsBarany

最佳答案

答案

  • christos_karraschristos_karras 成员职位:50大师
    @mschmitz

    是的,这样可能更好。生成的示例集需要具有与循环存储库操作符中的宏相同的属性:
    * entry_name
    * repository_path
    * parent_folder

    我可能会使用循环示例而不是循环值,因为我需要在循环的每次迭代中同时访问entry_name和repository_path。

    如果在同一时间快速完成(如果信息可用),我建议还为每个存储库条目添加一个带有Last Modified Timestamp的列。

    谢谢
登录注册置评。