验证模型和调整后的R平方

masterandmasterand 成员职位:1新手
嘿,社区,

我有一个关于我的模型验证的问题(我使用了交叉验证操作符)。
我创建了一个预测模型(标签:数值),因此使用了“线性回归”、“神经网络”和“深度学习”算法。为了验证,我选择了RMSE,相对误差和平方相关(R平方)。

我读到,选择的属性越多,R平方就越好。为了防止这种情况,我读到应该选择调整后的R平方。这是可能的与RapidMiner工作室或这是已经调整的R平方?

为了改进我的模型,我还使用“Select attributes”操作符进行了测试,并注意到以下内容:

当我选择所有属性时,我有这样的表现:

案例1
线性回归(RMSE 0,8 I相对误差14,2 I R平方0,63)
神经网络(RMSE 0,86 I RF 15,91 I R²0,65)
深度学习(RMSE 0,78 I RF 11,72 I R平方0,68)

在这种情况下,深度学习应该是最好的模型。
现在我删除了一些用于建模的属性,得到了以下结果:

案例2
线性回归(RMSE 0,79 I相对误差14,0 I R平方0,68)
神经网络(RMSE 0,89 I RF 17,29 I R²0,66)
深度学习(RMSE 0,79 I RF 13,19 I R平方0,65)

我真的不知道第二种情况下的线性回归是否比第一种情况下的深度学习模型更好(R平方变得更好,但相对误差变得更糟)。有人能帮帮我吗?

非常感谢!

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    这里的Rsq没有调整,但是在LR建模算子中有几个用于特征选择的参数,可以用来防止过拟合。
    至于哪种模型是最好的,仅仅基于这些性能指标是没有简单的方法来回答这个问题的。您必须了解用例,才能理解相对误差略高与Rsq之间的权衡。它还可能有助于查看底层数据,以确定这种关系是否看起来应该是线性的。附加的特征工程可能有助于改善所有的模型拟合。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入数据科学咨询由认证的RapidMiner专家
  • balmerhevibalmerhevi 成员职位:2贡献我
    2022年6月编辑
    r平方指的是一个特定模型的拟合“优度”,而不考虑自变量的数量。然而,调整后的平方考虑了自变量的数量。
    如果你有一个回归方程
    Y = mx + nx1 + ox2 + b
    r平方会告诉你这个方程描述数据的好坏。如果你添加更多的自变量(p, q, r, s…),那么r平方值将会提高,因为你在本质上更具体地定义了你的样本数据。使用调整后的r平方度量会考虑到你添加了更多的自变量,并且会对你添加的更多不适合样本数据的变量进行“惩罚”。这是一种测试变量的好方法,可以一次添加一个变量,检查副形容词r2何时开始恶化,也可以从所有变量开始,每次删除一个变量,直到副形容词r2没有改善。


登录注册置评。