在预测的背景下,我如何从多元回归中去除异方差?

florianherrmannflorianherrmann 成员职位:3.贡献我
2020年8月编辑 帮助
大家好,这是弗洛里安写的,

我目前正面临一个关于多元回归的问题,在那里我几乎卡住了。建模的背景是一个多变量预测。

长话短说:
我对多元回归进行了残差分析,因为平方相关性和预测结果本身表明预测工作不佳。残差分析的推论是异方差,而不是随机分布的结果。

经过一番研究,我发现可以通过变量变换(如box cox变换)来解决系统的拟合不足和异方差。不幸的是,RapidMiner不提供box - cox转换。因此,我被我的研究困住了,需要一些专业知识。

是否有其他方法来解决RapidMiner内的异方差和系统不适合而不完全重构我的模型?

谢谢你们的帮助!

答案

  • varunm1varunm1 主持人,职位:1207年独角兽
    你好@florianherrmann

    您是否检查过此现象是否是由异常值引起的?如果你有异常值,那么首先要处理它们,因为它们会使残差看起来像这样。

    如果你没有异常值,那么我认为实现它的一种方法是在rapidminer中使用execute python操作符,然后在scikit learn中应用功率转换。我认为RM还没有找到box cox。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

  • tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究
    @florianherrmann

    不幸的是,Box-Cox转换还没有添加到RapidMiner中。尽管如此,我们还是把它写在了路线图上。

    现在,我只有两个想法:
    -您可以通过使用python (R)扩展包括python(或R)的框框转换,该扩展允许将python脚本集成到您的工作流中
    -你也可以尝试事先平滑你的数据,这可能也有帮助。例如,通过使用指数平滑或移动平均滤波器(我在这里推荐二值滤波器)

    希望这对你的研究有帮助,并致以最良好的祝愿
    费边
  • florianherrmannflorianherrmann 成员职位:3.贡献我
    谢谢@varunm1@tftemme谢谢你的帮助!

    @tftemme到目前为止,我发现的是,我的时间序列预测总是比标签滞后+1步。由于季节模式,有两个相当高的峰值,这可能是异方差城市的原因。

    对于预测,我使用一些外部属性和label属性本身的滞后值(-1)。你有一个想法,可能是一个解决方案,以消除滞后预测?

    谢谢你的帮助
    弗洛里安
  • tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究
    可能您的模型只是使用最后一个值(滞后值)作为标签的预测,因此它总是滞后一步。为什么不为属性使用多个滞后值呢?您可以使用Windowing操作符来实现这一点。

    请记住,您的数据中可能没有模式来预测未来,因此仅使用最后一个值可能是预测的最佳猜测,您可能无法得到更好的预测。
  • tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究
    如果你的数据有季节性,也许也值得看看霍尔特-温特的单变量预测方法和“函数和季节成分预测”。这两种方法都试图在数据中包含季节性因素。请记住,您必须为此调整您的流程(例如使用Forecast Validation operator)。
  • florianherrmannflorianherrmann 成员职位:3.贡献我
    谢谢@tftemme

    这就是我研究的真正目的。试图弄清楚基于线性回归的多变量预测是否至少与单变量时间序列预测一样好(在我的例子中是函数和季节成分预测)。

    我已经在模型中详细阐述了您的建议。

    非常感谢你的帮助:)

    亲切的问候
    弗洛里安
登录注册置评。