具有太多值的列
Chemical_eng
成员职位:16因素二世
在帮助
你好。
我使用autommodel的回归问题(我的目标是连续的)。我有3个输入参数它们都有分类值。其中一个有27个值,另一个有16个值,另一个有107个值。我已经关闭了“删除有太多值的列”的选项。这是否确保对包含107个值的列正确执行单热编码?
在广义线性模型中,对于不同的类别我对很多类别都有系数0,这意味着什么,它没有影响吗?
谢谢
我使用autommodel的回归问题(我的目标是连续的)。我有3个输入参数它们都有分类值。其中一个有27个值,另一个有16个值,另一个有107个值。我已经关闭了“删除有太多值的列”的选项。这是否确保对包含107个值的列正确执行单热编码?
在广义线性模型中,对于不同的类别我对很多类别都有系数0,这意味着什么,它没有影响吗?
谢谢
标记:
0
最佳答案
-
yyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:363RM数据科学家嗨@Chemical_eng,
感谢您分享您使用AutoML解决回归问题的经验。
我已经关闭了“删除有太多值的列”的选项。这是否确保对包含107个值的列正确执行单热编码?是也不是。RapidMiner AutoML默认使用“目标编码”来删除值太多且不执行编码的属性。然而,GLM算法本身将通过单热编码(内部)直接处理分类列。对于GLM,您不必事先将标称转换为数值。我们强烈建议避免将任意级别的分类列编码为许多二进制列,因为这样效率非常低。这就是为什么我们在GLM内部单热编码之前执行目标编码。
我在AutoML中测试了泰坦尼克号的数据来预测乘客票价。
在这里打开流程
在Design视图中,您可以找到处理名义属性的操作符(另一个提示,激活Tree视图)。在这里。
在子过程“Basic Feature Engineering”中,您可以找到“Target Encoding”,而不是我的示例中所示的一个热编码。如果打开“Remove cloumns with too many values”并将最大值设置为10,则Target编码模型将删除属性“Life boat”,但默认情况下不会进行编码。在这里,您可以通过替换为one-hot编码操作符来定制它。
在广义线性模型中,对于不同的类别我对很多类别都有系数0,这意味着什么,它没有影响吗?
同样,在流程视图中,您可以关闭正则化选项。
希望能有所帮助。
欢呼,
YY
1
答案
如屏幕截图所示,我们有一个分类变量中所有可能值的下拉列表。
如果你有时间跟进,我可以快速打电话告诉你细节。