性能:循环值vs循环示例

CharlieFirpoCharlieFirpo 成员职位:48因素二世
2019年7月编辑 帮助
亲爱的!

我必须处理一个有100,000个例子的ExampleSet。为此,我使用Loop操作符,并在其中处理示例。在第一次迭代中,我处理第一个例子,在第二次迭代中,我处理第二个例子,以此类推。为此,我在循环操作符中使用了一个过滤器示例。在Filter Example操作符处,我可以使用Loop操作符的宏来过滤出正确的示例。
如果我使用循环值,那么我使用一个值类型的宏,所以在过滤器示例中有一个比较值的条件(类型是文本,值大约是20-50个字符长)。如果我使用Loop Example,那么循环宏是一个索引类型的宏,在Filter Example操作符中,比较发生在数字/整数之间(当然,我需要一个ID来做到这一点)。

所以我认为循环示例在性能上更有效。我说的对吗?是否有任何测试或手册、教程显示循环值和循环示例操作符之间的性能差异?
当然,我可以为我做一些测试,但一些官方参考将不胜感激!

谢谢你! !

答案

  • MariusHelfMariusHelf RapidMiner认证专家、会员职位:1869年独角兽
    如果要循环遍历每个操作符,请将循环示例与过滤器示例范围操作符(而不是过滤器示例)结合使用。这个运算符甚至更快,因为它不比较任何东西,而只是根据数据中的位置提取示例——它甚至不需要id。

    另一方面,如果你想循环遍历一个属性的不同值,例如遍历存储在label属性中的不同类,则应该使用循环值。

    最好的问候,
    马吕斯
  • CharlieFirpoCharlieFirpo 成员职位:48因素二世
    谢谢你!
    我应该在哪里使用过滤器示例范围?在循环示例中?

    在循环中,我有几个操作符和所有迭代中需要的所有操作符。循环的输入是一个exampleSet,它有100,000个示例(行),我必须逐一处理它们。在一次迭代中,我只想处理一个例子。使用过滤器示例范围,我如何在迭代中选择应该在循环中处理的示例?
    如果我不在循环中使用Filter Example,那么exampleSet的所有示例都将在一次迭代中处理。因为我有10万个例子所以我将有10万次迭代。
  • MariusHelfMariusHelf RapidMiner认证专家、会员职位:1869年独角兽
    你好,

    是的,将其放入循环示例中,并为两个值输入%{example}(或者您命名循环示例中的iteration_macro)。

    最好的问候,
    马吕斯
登录注册置评。