添加最后一个索引对时间序列数据的影响

ThiruThiru 成员职位:One hundred.大师
2020年8月编辑 帮助
亲爱的大家,我正在研究一个时间序列数据。参考所附流程。

1.目前-我使用“进程窗口”生成特征,并将聚合提取为子进程。提取的特征被用来训练我的机器学习模型。
2.我注意到-通过在进程窗口操作符的参数中为“添加最后一个索引到窗口属性”选择yes,大大提高了模型的性能。即从67%的准确率提高到97%的准确率。我注意到不同之处在于在生成的特性列中增加了一个额外的列。我不明白这是如何影响模型性能的。

考虑这个97%的表现是否正确?有人能帮助理解添加最后一个索引的作用吗?谢谢。

登记
thiru

标记:

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3286年RM数据科学家
    你好,
    注意不要在约会时过度训练你的模型。很容易发生的是,你学到“二月很好”这样的东西,这是一个你不想使用的规则。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • ThiruThiru 成员职位:One hundred.大师
    @mschmitz

    谢谢你的回复。在这种情况下,我理解-这个额外的列只是“每个窗口大小重复一个日期值”。(如果我说错了请指正。)我想这里是火车上。我不确定。
    顺便说一句,在“进程窗口”操作符中使用这个参数有什么用,您能对它如何确定或改进时间序列模型的性能提出一些见解吗?.谢谢。

    登记
    thiru
  • ThiruThiru 成员职位:One hundred.大师
    @mschmitz

    操作符“处理窗口”或“窗口”—之前有参数“在窗口属性中添加最后一个索引”。现在,在当前版本9.8.001中,该选项不可用。

    对于同样的数据和过程,我得到了67%的准确率,
    但现在我得到- 97.8%(现在我没有选择使用- '添加最后索引')。

    我不确定我做的事情是否正确。请您再确认一下。谢谢。

    thiru
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3286年RM数据科学家
    @Thiru
    在没有看到过程的情况下很难诊断。我想我们稍微改变了一下window的参数,因为你总是想要最后一个索引。因为它通常是一个特殊的属性,所以在学习中被忽略了。也许你以后会把它改成普通的?

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
登录注册置评。