渐变增强树(水)
剧情简介
使用H2O 3.30.0.1执行GBT算法。描述
请注意,此算法的结果可能取决于所使用的线程数。不同的设置可能导致输出略有不同。
梯度增强模型是回归模型或分类树模型的集合。两者都是前向学习集成方法,通过逐步改进的估计获得预测结果。增强是一种灵活的非线性回归过程,有助于提高树的精度。通过将弱分类算法依次应用于增量变化的数据,创建了一系列决策树,这些决策树产生了一个弱预测模型集合。虽然提高树木的准确性,但也降低了速度和人类的可解释性。梯度增强方法推广了树增强方法来最小化这些问题。
操作员启动一个1节点的本地H2O集群,并在其上运行算法。虽然它使用一个节点,但执行是并行的。您可以通过更改设置/首选项/通用/线程数设置来设置并行级别。默认情况下,它使用系统的推荐线程数。只有集群的一个实例被启动,它保持运行,直到您关闭RapidMiner Studio。
输入
- 训练集(数据表)
输入端口需要一个带标签的ExampleSet。
输出
- 模型
梯度增强分类或回归模型从这个输出端口交付。这种分类或回归模型可以应用于未知的数据集,以预测标签属性。
- 榜样(数据表)
作为输入给出的ExampleSet不会通过该端口更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。
- 权重(权重)
该端口下发与label属性相关的属性权重。
参数
- number_of_trees一个非负整数,用于定义树的数量。默认值是20。范围:整数
- 可再生的使模型构建可复制。如果设置,则maximum_number_of_threads参数控制模型构建的并行度级别。如果没有设置,那么并行级别由通用首选项中的线程数定义。范围:布尔
- maximum_number_of_threads控制模型构建的并行性级别。范围:整数
- use_local_random_seed仅当可复制设置为true时可用。指示是否应使用本地随机种子进行随机化。范围:布尔
- local_random_seed该参数指定本地随机种子。此参数仅在use local random seed参数设置为true时可用。范围:整数
- maximal_depth用户自定义的树深度。默认值是5。范围:整数
- min_rows分配给终端节点的最小行数。默认值是10.0。如果指定了权重列,则也会对行数进行加权。例如,如果终端节点包含权重分别为0.3和0.4的两行,则在最小行数中计算为0.7。范围:真正的
- min_split_improvement最小的相对改进的平方误差减少的分裂发生。默认值是1E-5。范围:真正的
- number_of_bins对于数值列(实数/整数),构建至少包含指定数量的箱子的直方图,然后在最佳点进行分割。默认值是20。范围:整数
- learning_rate学习率。较小的学习率导致更好的模型,然而,这是以在训练和评分期间增加计算时间为代价的:较低的学习率需要更多的迭代。默认值是0.1,范围是0.0到1.0。范围:真正的
- sample_rate每棵树的行抽样率(从0.0到1.0)。范围:真正的
- 分布训练数据的分布函数。对于某些功能(例如tweedie),可以通过专家参数实现进一步的调整
- AUTO:自动选择。对标称标签使用多项,对数字标签使用高斯。
- 伯努利分布。可用于二名或二类多名标签。
- 高斯,波森,伽玛,特威迪,分位数:回归的分布函数。
- early_stopping如果为true,则需要指定提前停止的参数。范围:布尔
- stopping_rounds基于stopping_metric收敛性的提前停车。如果stopping_metric的长度k的简单移动平均对于k:=stopping_rounds评分事件没有改善,则停止。只有设置了early_stop后,该参数才可见。范围:整数
- stopping_metric用于提前停止的度量。设置stopping_tolerance来调整它。只有设置了early_stop后,该参数才可见。
- AUTO:自动选择。使用logloss进行分类,偏差进行回归。
- deviance, logloss, MSE, AUC, lift_top_group, r2, misclassification:用来决定是否应该停止算法的度量。
- stopping_tolerance基于度量的停止标准的相对容忍度(如果相对改进至少没有这么多,则停止)。只有设置了early_stop后,该参数才可见。范围:真正的
- max_runtime_seconds模型训练的最大允许运行时间(秒)。使用0禁用。范围:整数
- expert_parameters这些参数是用来微调算法的。通常,默认值提供了一个不错的模型,但在某些情况下,更改它们可能是有用的。请为布尔参数使用真/假值,为列使用确切的属性名称。可以通过使用逗号(,)分隔值来提供数组。有关参数的更多信息可以在H2O文档中找到。
- score_each_iteration:是否在模型训练的每次迭代中打分。类型:boolean,默认值:false
- score_tree_interval:每隔50棵树对模型进行评分。如果设置为0则禁用。类型:整型,默认值:0
- fold_assign:交叉验证折叠分配方案,如果没有指定fold_column。选项:自动,随机,模,分层。类型:枚举,默认值:AUTO
- fold_column:每个观测值的交叉验证折叠索引分配的列名。类型:列,默认:无折叠列
- offset_column:偏移列名称。类型:列,默认值:无偏移列
- balance_classes:平衡训练数据类计数通过过采样/欠采样(不平衡数据)。类型:boolean,默认值:false
- max_after_balance_size:平衡类计数后训练数据的最大相对大小(可以小于1.0)。需要balance_classes。类型:real,默认值:5.0
- max_confusion_matrix_size:在日志中打印的混淆矩阵的最大大小(# classes)。类型:整型,默认值:20
- nbins_top_level:对于数值列(real/int),在根级别构建(最多)这么多箱子的直方图,然后每层减少2倍。类型:integer,默认值:1024
- nbins_cats:对于分类列(因子),构建这么多箱子的直方图,然后在最佳点分割。较高的值可能导致更多的过拟合。类型:integer,默认值:1024
- r2_stop: r2_stop不再被支持,如果设置将被忽略-请使用stopping_rounds, stopping_metric和stopping_tolerance来代替。以前的H2O版本会在R^2等于或超过这个值时停止生成树。类型:double,默认值:Infinity
- quantile_alpha:分位数回归所需的分位数(从0.0到1.0)。类型:double,默认值:0.5
- tweedie_power: Tweedie Power(介于1和2之间).类型:double,默认值:1.5
- col_sample_rate:列采样率(从0.0到1.0)。类型:double,默认值:1.0
- col_sample_rate_per_tree:每棵树的列采样率(从0.0到1.0)。类型:double,默认值:1.0
- keep_cross_validation_predictions:保留交叉验证模型预测。类型:boolean,默认值:false
- keep_cross_validation_fold_assignment:保持交叉验证折叠分配。类型:boolean,默认值:false
- class_sampling_factors:每个类的期望过采样/欠采样比率(按字典顺序排列)。如果未指定,将自动计算采样因子以在训练期间获得类平衡。需要balance_classes = true。类型:float array,默认值:空
- learn_rate_退火:在每棵树之后按此因子缩小学习率。类型:double,默认值:1.0
- sample_rate_per_class:每个类每个树的行采样率(从0.0到1.0)类型:双数组,默认值:空
- col_sample_rate_change_per_level:每个级别的列采样率的相对变化(从0.0到2.0)。类型:double,默认值:1.0
- max_abs_leafnode_pred:叶子节点预测的最大绝对值。类型:double,默认值:Infinity
- nfolds:交叉验证的折叠数。使用0关闭交叉验证。类型:整型,默认值:0
教程的过程
使用GBT进行分类
H2O GBT算子用于预测Deals样本数据集的future_customer属性。由于标签是标称的,因此将执行分类。GBT参数略有变化。树的数量减少到10,以减少执行时间并防止过拟合。由于类似的原因,学习率提高到0.3。生成的模型连接到Apply model操作符,该操作符将GBT模型应用于Deals_Testset示例数据。带标签的ExampleSet连接到一个Performance (Binominal Classification)操作符,该操作符计算精度度量。在过程输出上显示了性能矢量和梯度增强模型。渐变增强模型的树可以在结果视图中检查。
使用GBT的分割验证分类
利用H2O GBT算子预测虹膜样本数据集的标签属性。由于标签是多标称的,因此将执行分类。学习算子在分割验证中,以便能够检查分类的性能。树的数量设置为10,其他参数保持默认值。性能(分类)操作符提供准确性和分类错误。该模型包含30棵树,因为H2O为每个唯一的标签值创建10棵树。
使用GBT进行回归
利用H2O GBT算子预测多项式样本数据集的标签属性。因为标签是真实的,所以执行回归。检索样例数据,然后使用Split data操作符将其分成两个部分。第一个输出用作训练,第二个输出用作评分数据集。GBT算子的分布参数改为“gamma”。在对计分的ExampleSet应用之后,输出包含GradientBoostedModel和标记的数据。如果您为标记的数据选择图表/系列图表样式,并在绘图系列字段中选择标签和预测标签,则可以直观地检查预测的准确性。