大家好,这是弗洛里安写的,
我目前正面临一个关于多元回归的问题,在那里我几乎卡住了。建模的背景是一个多变量预测。
长话短说:
我对多元回归进行了残差分析,因为平方相关性和预测结果本身表明预测工作不佳。残差分析的推论是异方差,而不是随机分布的结果。
经过一番研究,我发现可以通过变量变换(如box cox变换)来解决系统的拟合不足和异方差。不幸的是,RapidMiner不提供box - cox转换。因此,我被我的研究困住了,需要一些专业知识。
是否有其他方法来解决RapidMiner内的异方差和系统不适合而不完全重构我的模型?
谢谢你们的帮助!
0
答案
您是否检查过此现象是否是由异常值引起的?如果你有异常值,那么首先要处理它们,因为它们会使残差看起来像这样。
如果你没有异常值,那么我认为实现它的一种方法是在rapidminer中使用execute python操作符,然后在scikit learn中应用功率转换。我认为RM还没有找到box cox。
Varun
https://www.varunmandalapu.com/
是安全的。遵循预防措施并保持社交距离
不幸的是,Box-Cox转换还没有添加到RapidMiner中。尽管如此,我们还是把它写在了路线图上。
现在,我只有两个想法:
-您可以通过使用python (R)扩展包括python(或R)的框框转换,该扩展允许将python脚本集成到您的工作流中
-你也可以尝试事先平滑你的数据,这可能也有帮助。例如,通过使用指数平滑或移动平均滤波器(我在这里推荐二值滤波器)
希望这对你的研究有帮助,并致以最良好的祝愿
费边
@tftemme到目前为止,我发现的是,我的时间序列预测总是比标签滞后+1步。由于季节模式,有两个相当高的峰值,这可能是异方差城市的原因。
对于预测,我使用一些外部属性和label属性本身的滞后值(-1)。你有一个想法,可能是一个解决方案,以消除滞后预测?
谢谢你的帮助
弗洛里安
请记住,您的数据中可能没有模式来预测未来,因此仅使用最后一个值可能是预测的最佳猜测,您可能无法得到更好的预测。
这就是我研究的真正目的。试图弄清楚基于线性回归的多变量预测是否至少与单变量时间序列预测一样好(在我的例子中是函数和季节成分预测)。
我已经在模型中详细阐述了您的建议。
非常感谢你的帮助:)
亲切的问候
弗洛里安