我应该在汽车模型中使用红色状态高度相关属性吗?

SkyTraderSkyTrader 成员职位:88因素二世
2020年8月编辑 帮助

你好,

如果线性模型的结果好得令人难以置信,我在线性模型上得到了0.3%的相对误差,我是否可以得出这样的结论:这是因为我包含了与标签(道琼斯收盘价)密切相关的属性(红色状态)?我应该相信这个结果吗?

高相关性:相关性超过40%可能是你在预测时没有的信息的指标。在这种情况下,您应该删除这一列。但是,有时预测问题很简单,如果包含列,您将得到更好的模型。

例如,我包含了一个红色状态,2天移动平均线与收盘价(0.7权重)有99%的相关性。如果像这样一个简单的指标(在即期外汇日内交易时是有效的)是一个很好的预测指标——也被我的解释预测随机森林模型所证实——我应该包括它吗?为什么RM Auto Model说不要用它?我得到的概念是RM正在寻找模式,它正在寻找解释标签的“潜在原因”。

在Auto Model帮助注释中,它还指出:

“性能是在40%的hold out集合上计算的,该集合没有用于任何已执行的模型优化。然后将此保留集用作多保留集验证的输入,其中我们计算7个不相交子集的性能。最大和最高的性能被删除,剩下5个性能的平均值在这里报告。”

RM收盘价不是吗必然地匹配Excel文件列E收盘价,因为这个不相交的子集测试,这就是RM Auto Model结果中没有提供日期的原因吗?(Excel中5186行的收盘价是27686,而不是RM中2074行的27386)。


最后,为什么模拟器预测价格与当前实际收盘价相差如此之远?道琼斯指数目前在27778点,我如何解释14466点的结果?



谢谢大家的见解,

答案

  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    我不知道你的项目的确切性质,所以我的建议可能是错误的。然而,我处理股票市场数据的经验表明,很难得到好的结果(如果它很简单,就会有很多非常富有的人四处走动,市场会重新调整)。得到0.3%的相对误差很可能意味着你将未来泄露给了你的预测器。例如,如果你使用调整后的收盘价来预测收盘价,或者当你在一段时间内计算一些技术特征来预测未来,或者当你在预测个股时包括整个市场的收盘价,等等。所以你需要注意,不要把未来的、验证的、测试的数据泄露到你的培训中。这在处理时间序列时特别容易做到。我注意到你使用移动平均线作为预测指标,也许它们是从过去和未来的一些日子里计算出来的?是这样的,这里我们有一个解释你的微小的0.3%的相对误差!

    雅各
  • SkyTraderSkyTrader 成员职位:88因素二世
    2020年9月编辑

    @jacobcybulski

    谢谢你的回复。

    根据您的经验,您认为随机森林或时间序列ARIMA的相对错误率是多少?为什么ARIMA分类指标的可预测性与随机森林不同?

    移动平均线不是预测指标,只代表过去的价值。

    您知道如何在Auto Model结果列中显示日期吗?

    欢呼,

  • jacobcybulskijacobcybulski 委员、大学教授职位:391独角兽
    @SkyTraderARIMA可以有效地处理非平稳时间序列,如股票时间序列。问题是,在平滑和微分的过程中,你处理的是严重变换的时间序列,你能得到很好的结果。然而,一旦应用所有反向转换并添加在过程中删除的噪声,错误就会被放大。尝试验证您的模型并计算实际单位的误差。大多数从事金融数据工作的人坚持在建模之前使所有时间序列严格平稳。另一方面,你可以转向非参数模型,它对时间序列的性质做出更少的假设,随机森林或梯度增强树就是很好的例子。最近也有一些关于应用深度学习模型的工作,如RNN、LSTM和GRU,并取得了非常有希望的结果。
    雅各
    SkyTrader
登录注册置评。