这里的所有功能请求都由我们的产品团队监控。

投票问题!

拥有高票数(通常≥10票)的想法在我们的路线图中被优先考虑。

注意:如果你想建议一个新的功能,请发布一个新的问题和标签为“功能请求”。谢谢你!

添加一个本地Rank操作符到RapidMiner Studio

Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
最近有几个线程询问如何使用RapidMiner计算排名。目前,在旧的和不支持的(和有些bug)财经扩展中有一个Rank操作符,但很难推荐该解决方案,特别是对新用户。目前使用RapidMiner本地操作符的替代方法对于像排名计算这样概念简单的事情来说非常麻烦和复杂。如果RapidMiner只是在基本数据ETL工具包中添加一个本地Rank操作符,那就简单多了。
布莱恩·T。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
标记:
rfuentealba Telcontar120 MarcoBarradas SGolbert
4
4票

开放投票·最后一次更新

刺激- 176

评论

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家
    Rank运算符会做什么?
    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    @mschmitz它将根据特定的数字属性及其值计算每个示例的数字排名。这相当于按该属性对示例进行排序,然后分配一个顺序的数字id。看看财经扩展中的Rank算子,今天有一个工作示例,可以同时用于任何任意一组数字属性。
    一个更复杂的版本甚至会提供关于是升序还是降序排序以及如何处理tie值(分配最低排名,分配最高排名或分配中点排名)的选项,以及替换原始属性还是使用排名值添加新属性的选项。
    这在概念上类似于将百分位数值分配给所有示例。在许多情况下,这是一个有用的转换,包括许多非参数计算,或者在模型中使用秩值而不是原始值作为预测因子来消除标量效应(例如,异常值),同时保持序性。
    这些现在都可以在RapidMiner中手动完成,但它需要一个相关操作符的菊花链(例如,生成复制,排序,生成ID等),这将是一个很好的组合成一个简单的操作符。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家
    我们总是面临这样的问题:操作人员的数量vs易用性。如果它只是Sort + GenId,我会反对一个新的操作符。只有当涉及到比“仅此而已”更多的内容时,即你的百分位数,它才有意义。

    @tftemme想法吗?

    BR,
    马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    @mschmitz但现实是,这是一个非常普遍需要的转换。您经常希望一次对整个属性集执行此操作,这意味着在Loop attributes中有4个操作符(排序、生成id、设置角色和重命名)。在我看来,这已经足够麻烦了,值得一个单独的运营商。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
    phellinger
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    此外,上面的方法也不能很好地处理关系,这需要更多的复杂性来正确处理秩值。
    附:我希望有一个百分位算子,原因完全相同!同样,也可以使用Loop和类似的操作符手动完成,只是会增加从原始排名值计算百分位数值的复杂性。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3368年RM数据科学家
    你知道Aggregate现在可以计算百分位数了吧?

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    @mschmitz当然,但是它计算特定的请求的百分位数值,它不容易提供所有示例的百分位数排名。这是两个相关但不同的操作。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究
    @Telcontar120@mschmitz

    我认为对于一个频繁变换来说>=4个算子就足够把它变成一个算子了。我会在算子工具箱里为它创建一个票。我们得看看怎么把它放进去。如果您对操作符应该如何工作或应该提供哪些选项有进一步的描述,请随时发布它们。描述得越多越好。

    最好的问候,
    费边

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    @tftemme如果您希望我进一步详细解释我上面列出的规范,请随时通过PM与我联系。为了节省时间,自动属性复制/重命名、绑定处理和多属性选择可能是最重要的选项。
    我意识到您实际上也可以使用一个操作符来处理原始排名和百分位数排名,并使用另一个选项来控制输出格式(排名vs百分位数排名)。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
登录注册置评。