添加最后一个索引对Windows属性-时间序列数据的影响。

ThiruThiru 成员职位:One hundred.大师
2020年8月编辑 帮助
亲爱的大家,我正在研究一个时间序列数据。参考所附流程。

1.目前-我使用“进程窗口”生成特征,并将聚合提取为子进程。提取的特征被用来训练我的机器学习模型。
2.我注意到-通过在进程窗口操作符的参数中为“添加最后一个索引到窗口属性”选择yes,大大提高了模型的性能。即从67%的准确率提高到97%的准确率。我注意到不同之处在于在生成的特性列中增加了一个额外的列。我不明白这是如何影响模型性能的。

考虑这个97%的表现是否正确?有人能帮助理解添加最后一个索引的作用吗?谢谢。

登记
thiru
lastindex.rmp 14.3 k
标记:

答案

  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    因为我无法获得你的数据,所以我无法完全复制它。window属性中的最后一个索引是特殊的,添加它只是为了在新的示例集中保留索引(作为ID)。但是请注意,由于您汇总了时间序列,并且没有使用任何特殊属性(除了标签),因此最后一个索引将消失。所以对结果没有影响。在你的过程中,你一定改变了别的东西。在不同的运行中,您可能已经从不同的数据混合中获得了随机效应——为了消除这种情况,在拆分数据和交叉验证操作符中设置随机种子,看看您是否仍然在两次运行中获得惊人的性能。也试着简化你的过程(例如,去除你的堆叠)来隔离效果。
    雅各
登录注册置评。