关于连接的设计问题和替换缺失值系列操作符的问题

msacs09msacs09 成员职位:55因素二世
2019年6月编辑 产品反馈-已解决
专家,

我试图在替换缺失值之前和之后显示结果,并显示聚合AVG值,不知何故,当我引入原始样本和AVG派生字段时,我得到完全错误的结果。

此外,替换缺失值系列操作符不会在这里输入缺失值。有什么问题吗?

谢谢你的时间。请见附件样品数据和流程
0
0票

固定与释放·最后一次更新

9.2.1修复。谢霆锋- 78

评论

  • msacs09msacs09 成员职位:55因素二世
    @tftemme哇,太棒了,先生。谢谢您的宝贵时间。
    sgenzer
  • msacs09msacs09 成员职位:55因素二世
    2019年2月编辑
    @tftemme一个快速的跟进。是否有一种方法可以将其与预测/预测相结合,特别是对于无法内插且需要外推的值?此外,是否有一种方法可以通过执行一些反向测试来获取性能指标,以评估是否插值或预测对给定的数据/时间更好?

    非常感谢
  • tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究
    @msacs09

    这是一个更高级的设置,但一般来说,你当然可以用预测来填补时间序列末尾缺失的值。事实上,在我改进的例子中,我已经在做这样的预测了。我在非缺失值上拟合线性函数,但“拟合”输出端口给我所有索引值的值。所以我可以用拟合函数的值替换缺失的值(由于这种拟合是基于过去的值,它基本上是一个预测)。

    例如,您还可以在非缺失值上训练ARIMA模型(或任何其他预测模型),并使用Apply forecast操作符来预测下一个值。选择参数“添加组合时间序列”后,您甚至不需要将预测与原始时间序列连接起来。我更新(并附上)这样一个选项的过程。必须添加一些宏来自动确定预测范围。

    关于第二个问题。在不知道真实值的情况下,计算性能(从而决定是插值还是预测更好)总是非常困难的。当然,您可以创建测试数据,通过设置一些值为missing,然后评估您的插值和预测的回归性能(两者都试图预测未知的数字,因此回归)。

    希望能有所帮助
    最好的问候,
    费边
    sgenzer
  • msacs09msacs09 成员职位:55因素二世
    2019年2月编辑

    亲爱的@tftemme(先生)

    我有几个问题,首先感谢大家的宝贵时间。

    所以开着ARIMA的时候我有点迷路了。”ystart(时间序列的长度)”。我们在流程中的什么地方定义“ystart”?实际上,我看到我们没有传递遗漏的净销售额(即)“NETSALES_interpolated = Not Missing”到ARIMA模型,所以我有点困惑,它在抱怨什么?事实上,我删除了所有缺失的净销售额,我得到的消息是“Exception: com.rapidminer. timeseriesanalysisexception . argumentsemptyexception”
    消息:提供的值数组是空的"

    (2)顺便说一句,我需要你的专家建议,根据年销售额推算月销售额的最佳方法是什么(即,对于一些客户,我们只有年收入,我们想根据可用的年销售额推算月销售额,我们有过去4年的年销售额)?我们是否应该将年销售额平均并除以12?这样做对吗,我只是想看看有没有更好的方法?

    一如既往地感谢您的宝贵意见。
    年代
  • tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究
    @msacs09

    对于每个阅读这篇文章的人,@msacs09发给我一个PM和他的数据,这些数据不能公开分享。但是出现了一个错误:
    参数p,d,q的组合依赖于序列的长度是不允许的。P: 1, d: 0, q: 0,长度:5。
    给定的参数p,d,q对于给定序列应用HannanRissanen (HR)估计起始参数是无效的。条件ystart < (length -d)不满足:length: 5, d:0, q:0, p:1 ystart = Math。max(maxOrderOfInitialARProcess + q, p) = 6, maxOrderOfInitialARProcess of HR = 6"

    我不得不说,虽然错误消息没有错,但它是一种复杂和令人困惑的方式,将来会被一个正确的消息所取代。回到具体的问题:

    1)该错误信息中提到的几个变量是ARIMA拟合过程中内部使用的变量,因此用户无法对它们做任何事情。错误信息基本上表示没有足够的示例来训练ARIMA模型。用户的正确条件是:
    长度- d > max(q+6, p);带长度=时间序列的长度。
    所以错误不在于缺少值,而在于没有足够的例子。在过滤掉缺失的值(使用Filter Examples操作符)之后,只剩下不到7个示例,这不足以拟合任何ARIMA模型。
    但即使是7个例子也是如此之少,以至于我不会在它们上面训练ARIMA模型。
    由于示例数量如此之少,我建议使用拟合的线性函数作为预测/替换方法。

    对于错误消息说:“Exception: com.rapidminer. timeseriesanalysis.com Exception . argumentsemptyexception。
    消息:提供值数组为空”,你能再次提供我的过程和数据导致这一点。这个错误不应该发生,但是应该抛出一个相应的UserError(红色气泡)。

    将年销售额除以12是一个正确的方法。请记住,您没有添加任何信息,因此您可以做的关于每月销售额的唯一假设是它们在全年中都是相同的。所以除以12是一个合理的方法。

    最好的问候,
    费边
    MartinLiebig sgenzer
  • msacs09msacs09 成员职位:55因素二世
    @tftemme先生,

    谢谢你的反馈。数据我已经私下发给你了。实际上,我已经过滤了我的数据集,只有1个缺失的间隔,我得到下面的错误。混乱是,在24小时间隔(2年)中,我确实有不少id没有任何缺失间隔大约363个唯一id有24个月的间隔,这显然多于7个例子,这里我有点困惑






  • tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究
    @msac

    这似乎确实是一个bug。我得调查一下,到底出了什么问题。谢谢你找到它。

    最好的问候,
    费边
  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    转向产品反馈。@tftemme你交罚单了吗?
登录注册置评。