rapidminer studio 9.3.001中的HBOS内存问题

MaartenKMaartenK 成员职位:15因素二世
你好,

之前有一个关于这个问题的帖子,但那并没有解决我的问题。
我有一个有13个特征的数据集。我使用的HBOS从分析扩展版本2.4.001。
如果我采样我的数据集到100项,然后应用HBOS,工作室仍然会耗尽内存。它最多使用30Gb,然后在几分钟后出现错误停止。似乎工作室花在垃圾收集上的时间比花在实际算法上的时间更多。
欢迎提供任何有用的建议。

亲切的问候,

Maarten

答案

  • MaartenKMaartenK 成员职位:15因素二世
    我做了更多的实验,相信这是一个错误在异常扩展HBOS组件。如果我添加HBOS进程新鲜,它将运行一次。在对模型应用任何更改之后,就会发生上述行为。
  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3329年RM数据科学家
    @MaartenK
    我认为有一个已知的问题与日期-时间属性。你能检查一下你的数据集是否包含日期吗?
    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    yyhuang Tghadially
  • MaartenKMaartenK 成员职位:15因素二世
    嗨mschmitz数据集确实包含日期字段。然而,我用数值字段使用datetonnumeric替换它们。数据集现在包含1个标签(多项式),3个整数,2个多项式和5个实数。它包含100个项目。

    数据集中似乎有什么东西引发了一个问题。另外,如果我在HBOS之前放置一个选择属性组件并选择一个属性,当使用“single”选项时,HBOS组件仍然会显示所有10个属性。另外,如果我使用HBOS中的选择器删除属性并应用更改,它将再次使用所有10个属性。
    Tghadially yyhuang
  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3329年RM数据科学家
    你好,
    你能试着在HBOS的正前方添加一个“物化”操作符吗?这可能会起作用。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
  • MaartenKMaartenK 成员职位:15因素二世
    谢谢你的迅速回应。这并没有解决我的问题。与此同时,我请求允许与您共享数据集。这是一个教育数据集。当获得许可时,我可以与您共享模型和数据集进行复制。
    yyhuang MartinLiebig sgenzer Tghadially
  • MaartenKMaartenK 成员职位:15因素二世
    我试着多做一些步骤来重现这个问题。似乎问题可能是由数据集中缺失的值触发的。请找到附件2个模型和2个数据集。包含100个包含缺失值的项的示例会触发内存问题。包含100个不包含缺失值的样例将在瞬间处理。
    HBOS issue.zip 216.6 k
    Tghadially
  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @MaartenK

    对不起,我只是来确认这个错误是由于缺失的值,唯一要做的事情就是你所做的:impute缺失的值。

    事实上,经过反思和自省,我认为这样的算法(异常值检测)不能原生处理缺失值,
    所以这里最好的策略(一般来说也是)是归因缺失的值,你所做的…
    当然,棘手的部分是找到最好的算法或方法(平均值,中位数等)来输入缺失的值…

    这是我对这个问题的谦虚反思的结果,但我不是异常值/异常检测的专家,如果有人
    你可以补充一些想法,如果我错了可以纠正我。

    问候,

    莱昂内尔


    varunm1
  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3329年RM数据科学家
    这是一个明显的bug。这个扩展不是来自RM,而是开源的。我试过让它为…30分钟了,没能坚持下来。所以我们很难加上失踪支票。
    有Java专家来帮忙吗?也许@rfuentealba?
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    Tghadially
  • rfuentealbarfuentealba 主持人,RapidMiner认证分析师,会员,大学教授职位:568独角兽
    你好,

    一个有根据的猜测是,它并没有缺少处理空值的条件,但空条件没有在它应该关闭的地方关闭。

    只是为了确认一下,代码在GitHub上吗?我今天晚些时候可以去看看。

    愿一切都好!

    杆。
    Tghadially
  • MaartenKMaartenK 成员职位:15因素二世
    谢谢你的支持。源代码似乎在这里。https://github.com/Markus-Go/rapidminer-anomalydetection
    xml确实提到了2.4.001作为版本。
    当然,我不能确定当前扩展的来源是从哪里构建的。

    Tghadially
  • MaartenKMaartenK 成员职位:15因素二世
    与此同时,我和马库斯·戈尔茨坦一起发了邮件。他告诉我,他目前有一个学生在研究新的操作,之后会让他看看HBOS的先决条件。
  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区管理员,成员,大学教授,PM版主职位:2959年社区经理
    @MaartenK如果你能帮我联系Markus,我会很感激的!
    Tghadially
登录注册置评。