自动模型:当自动特征选择/生成打开时,性能更差?

cramsdencramsden 成员职位:42贡献我
你好,我是机器学习世界的新手,我通过玩快速矿工工作室来自学。我刚刚注意到一些对我来说似乎没有意义的东西,我希望有人能给我解释一下。

我将相同的数据集放入自动模型中,并首先在关闭“自动特征选择/生成”的情况下运行它,然后在打开特征选择/生成的情况下再次运行它。

当“自动特征选择/生成”打开时,模型的性能比关闭时差。我有点困惑,为什么添加特征选择/生成会潜在地使模型变得更糟,如果没有任何特征可以提高模型的性能,那么它们不就会被拒绝,原始模型就会出来,所以性能应该只是相同或更好?

再次,我是非常新的,我只是有点困惑在这里,任何帮助将非常感激!

谢谢你!

答案

  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家
    你好,
    只是一个想法:可能FS实际上是过度训练模型,因此测试错误更糟。

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • cramsdencramsden 成员职位:42贡献我
    我的想法是,如果FS不做任何改进,它就会坚持基本模型?也许我对培训/测试是如何工作的感到困惑。我还是个新手,只是随便玩玩
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3367年RM数据科学家
    你好,
    我通常倾向于认为模型拟合和特征选择是一件需要一起看待的事情。因此,将FS添加到模型中增加了模型生成方法的“自由度”。更多的自由度意味着更多的过拟合选项。

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • cramsdencramsden 成员职位:42贡献我
    啊,好的,所以我看到的模型的结果,相关性,均方根误差等都是基于被保留的数据子集?

    我认为它是根据这些结果选择最好的模型,所以这一定是我困惑的地方。
登录注册置评。