关于连接的设计问题和替换缺失值系列操作符的问题
专家,
我试图在替换缺失值之前和之后显示结果,并显示聚合AVG值,不知何故,当我引入原始样本和AVG派生字段时,我得到完全错误的结果。
此外,替换缺失值系列操作符不会在这里输入缺失值。有什么问题吗?
谢谢你的时间。请见附件样品数据和流程
我试图在替换缺失值之前和之后显示结果,并显示聚合AVG值,不知何故,当我引入原始样本和AVG派生字段时,我得到完全错误的结果。
此外,替换缺失值系列操作符不会在这里输入缺失值。有什么问题吗?
谢谢你的时间。请见附件样品数据和流程
0
评论
我还添加了一个改进版本的过程。由于Replace Missing Values不需要覆盖属性,因此不需要使用Generate attributes操作符保留旧值(从而删除一个连接)。我还在循环集合中添加了degree = 1的Extract Coefficients (Polynomial Fit)算子。然后,我使用不确定有限值的替换缺失值操作符,将拟合函数连接到结果并生成一个新属性,如果插值不正确,则包含插值值或拟合值。(在这样做的同时,我意识到提取系数运算符中的索引属性在元信息中缺失,所以我将在下一个补丁版本中修复这个问题;-))
我把两个版本都附到了这个帖子里。玩得开心吧;-)
最好的问候,
费边
非常感谢
这是一个更高级的设置,但一般来说,你当然可以用预测来填补时间序列末尾缺失的值。事实上,在我改进的例子中,我已经在做这样的预测了。我在非缺失值上拟合线性函数,但“拟合”输出端口给我所有索引值的值。所以我可以用拟合函数的值替换缺失的值(由于这种拟合是基于过去的值,它基本上是一个预测)。
例如,您还可以在非缺失值上训练ARIMA模型(或任何其他预测模型),并使用Apply forecast操作符来预测下一个值。选择参数“添加组合时间序列”后,您甚至不需要将预测与原始时间序列连接起来。我更新(并附上)这样一个选项的过程。必须添加一些宏来自动确定预测范围。
关于第二个问题。在不知道真实值的情况下,计算性能(从而决定是插值还是预测更好)总是非常困难的。当然,您可以创建测试数据,通过设置一些值为missing,然后评估您的插值和预测的回归性能(两者都试图预测未知的数字,因此回归)。
希望能有所帮助
最好的问候,
费边
亲爱的@tftemme(先生)
我有几个问题,首先感谢大家的宝贵时间。所以开着ARIMA的时候我有点迷路了。”ystart(时间序列的长度)”。我们在流程中的什么地方定义“ystart”?实际上,我看到我们没有传递遗漏的净销售额(即)“NETSALES_interpolated = Not Missing”到ARIMA模型,所以我有点困惑,它在抱怨什么?事实上,我删除了所有缺失的净销售额,我得到的消息是“Exception: com.rapidminer. timeseriesanalysisexception . argumentsemptyexception”
(2)顺便说一句,我需要你的专家建议,根据年销售额推算月销售额的最佳方法是什么(即,对于一些客户,我们只有年收入,我们想根据可用的年销售额推算月销售额,我们有过去4年的年销售额)?我们是否应该将年销售额平均并除以12?这样做对吗,我只是想看看有没有更好的方法?
一如既往地感谢您的宝贵意见。
年代
对于每个阅读这篇文章的人,@msacs09发给我一个PM和他的数据,这些数据不能公开分享。但是出现了一个错误:
参数p,d,q的组合依赖于序列的长度是不允许的。P: 1, d: 0, q: 0,长度:5。
给定的参数p,d,q对于给定序列应用HannanRissanen (HR)估计起始参数是无效的。条件ystart < (length -d)不满足:length: 5, d:0, q:0, p:1 ystart = Math。max(maxOrderOfInitialARProcess + q, p) = 6, maxOrderOfInitialARProcess of HR = 6"
我不得不说,虽然错误消息没有错,但它是一种复杂和令人困惑的方式,将来会被一个正确的消息所取代。回到具体的问题:
1)该错误信息中提到的几个变量是ARIMA拟合过程中内部使用的变量,因此用户无法对它们做任何事情。错误信息基本上表示没有足够的示例来训练ARIMA模型。用户的正确条件是:
长度- d > max(q+6, p);带长度=时间序列的长度。
所以错误不在于缺少值,而在于没有足够的例子。在过滤掉缺失的值(使用Filter Examples操作符)之后,只剩下不到7个示例,这不足以拟合任何ARIMA模型。
但即使是7个例子也是如此之少,以至于我不会在它们上面训练ARIMA模型。
由于示例数量如此之少,我建议使用拟合的线性函数作为预测/替换方法。
对于错误消息说:“Exception: com.rapidminer. timeseriesanalysis.com Exception . argumentsemptyexception。
将年销售额除以12是一个正确的方法。请记住,您没有添加任何信息,因此您可以做的关于每月销售额的唯一假设是它们在全年中都是相同的。所以除以12是一个合理的方法。
最好的问候,
费边
谢谢你的反馈。数据我已经私下发给你了。实际上,我已经过滤了我的数据集,只有1个缺失的间隔,我得到下面的错误。混乱是,在24小时间隔(2年)中,我确实有不少id没有任何缺失间隔大约363个唯一id有24个月的间隔,这显然多于7个例子,这里我有点困惑
这似乎确实是一个bug。我得调查一下,到底出了什么问题。谢谢你找到它。
最好的问候,
费边