我应该在汽车模型中使用红色状态高度相关属性吗?
你好,
如果线性模型的结果好得令人难以置信,我在线性模型上得到了0.3%的相对误差,我是否可以得出这样的结论:这是因为我包含了与标签(道琼斯收盘价)密切相关的属性(红色状态)?我应该相信这个结果吗?
”高相关性:相关性超过40%可能是你在预测时没有的信息的指标。在这种情况下,您应该删除这一列。但是,有时预测问题很简单,如果包含列,您将得到更好的模型。”
例如,我包含了一个红色状态,2天移动平均线与收盘价(0.7权重)有99%的相关性。如果像这样一个简单的指标(在即期外汇日内交易时是有效的)是一个很好的预测指标——也被我的解释预测随机森林模型所证实——我应该包括它吗?为什么RM Auto Model说不要用它?我得到的概念是RM正在寻找模式,它正在寻找解释标签的“潜在原因”。
在Auto Model帮助注释中,它还指出:
“性能是在40%的hold out集合上计算的,该集合没有用于任何已执行的模型优化。然后将此保留集用作多保留集验证的输入,其中我们计算7个不相交子集的性能。最大和最高的性能被删除,剩下5个性能的平均值在这里报告。”
RM收盘价不是吗必然地匹配Excel文件列E收盘价,因为这个不相交的子集测试,这就是RM Auto Model结果中没有提供日期的原因吗?(Excel中5186行的收盘价是27686,而不是RM中2074行的27386)。
最后,为什么模拟器预测价格与当前实际收盘价相差如此之远?道琼斯指数目前在27778点,我如何解释14466点的结果?
谢谢大家的见解,
0
答案
雅各
嗨@jacobcybulski,
谢谢你的回复。
根据您的经验,您认为随机森林或时间序列ARIMA的相对错误率是多少?为什么ARIMA分类指标的可预测性与随机森林不同?
移动平均线不是预测指标,只代表过去的价值。
您知道如何在Auto Model结果列中显示日期吗?
欢呼,
雅各