Operator Toolbox Version 0.9.0发布

MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
2019年6月编辑 知识库

我们很自豪地发布0.9.0版本的工具箱。Rapi乐鱼平台进入dMiner的数据科学团队再次努力工作,为您提供另一组有用的操作符。这一次,我们有几个功能是由社区请求触发的,还有一个我一直想要的操作符。

新操作符:随机森林编码器

随机森林是机器学习中最常用的技术之一。它们计算速度快,可以并行计算,可以处理数值和标称值,并且预测能力强。

随机森林中使用的技术是一种称为套袋的综合方法。集成方法训练许多弱学习器并将它们组合成一个强学习器;在bagging中,弱学习器是通过使用一个bootstrap数据样本来训练一个“基础学习器”来生成的。然后将这些基本学习器的结果与(加权)平均值相结合以获得预测。




1 _eukxrerj8mpkf_v8klrpya.jpeg以随机森林为例。颜色代表节点的纯度。每棵树产生一个分数。森林的得分是每棵树的平均值。



随机森林使用一种非常特殊的学习器作为基础学习器:随机树。随机树类似于决策树,但每个节点只使用所有列的子集。

如何更好地组合树木?

这里的一个问题是,为什么我们要取所有树的平均值?我们就不能做点更“聪明”的事吗?答案当然是——是的,有一点。

一种方法是创建一个新表。新表有一个用于所有行的标签列(用作预测目标),但也有一个新的置信度/概率列。这使我们能够“学习另一个学习者”,将置信度作为输入并预测我们的标签。你可以把它看作是另一种集成方法——叠加。

这种想法的危险在于你给你的模型增加了额外的复杂性,这可能会导致过拟合。我强烈建议仔细验证这些树。

随机森林作为一种编码方法

看待这种方法的另一种方法是将随机树的所有置信度放到一个新列中,类似于PCA或t-SNE所做的。我们输入数据并得到与目标变量更好相关的数据的新表示。这就是我所说的“编码器”。这个编码器的美妙之处在于,你可以输入标称数据,输出数值。这使我们能够将编码的结果输入到神经网络和支持向量机等学习器中。

在编码的情况下,我建议仔细控制深度树,不要在一个属性中编码太多路径。另一方面,深度控制列之间的“交互级别”。

在RapidMiner中的实现


1 _vuastnmqjhnk95agfvsuqw.png使用RapidMiner实现。随机森林编码器在最高输出处传递的表包含了单个树的所有分数。


操作符接受一个ExampleSet和一个Random Forest模型并进行转换。当然,通过在集合中的子树上迭代,也可以在Python或R中快速实现这一点。

更新算子:基于词典的情感学习器

基于词典的情感学习算子是2017年添加到算子工具箱中的算子之一。该操作符接受一个包含单词及其分数的字典,通常在-1.0(消极情绪)和1.0(积极情绪)之间,总结文档的积极性和消极性,并返回一个可用于情感分析的分数。操作符可以应用于任何标记化的文档。

然而,情感分析中的一个常见问题是包含否定。例如,如果你有这样一个句子:

这篇文章不错

你不想拥有作为一个贬义词,却颠倒了权重为了感情。

Negations.png

现在可以通过添加“否定字典”来更新基于字典的情感学习算子。这个字典只是一个包含否定词列表的ExampleSet。如果这个词出现在大小为x的窗口中,在情感词之前,它将反转权重。窗口大小可在操作员参数中调整。

* *注意* *:这个特性需要对原始模型对象进行一些修改。使用以前版本的Operator Toolbox创建的模型不再可用;您需要重新创建它们。

新操作员:阅读Excel工作表名称


Sheetnames.png

通常的Read Excel操作符用于读取Excel文件中的单个工作表。如果您知道Excel文件的结构,您也可以遍历此操作符并读取该Excel文件的各种工作表。


“读取Excel工作表名称”操作符可帮助您读取具有不同工作表名称的Excel文件。它能够为任何给定的Excel文件提供“工作表”和“工作表名称”列表。然后可以在循环中使用它来处理每个单独的表单。

更新:组到集合

“组入集合”操作符是“操作符工具箱扩展”中最常用的操作符之一。我们通过添加一个选项来决定结果集合的排序方式,从而增强了it功能。

排序当然会影响运算符的执行时间。因此,如果您不需要收集的特定顺序,则可以使用默认值排序顺序也就是“没有”。

不同的排序选项有:

  • 没有:没有特定的顺序。
  • 字母:收藏品是按字母顺序排列的。按属性分组的值逐个字符进行比较,并相应地排序。请注意,因此值[4,11,2,1,47]将被排序为:[1,11,2,4,47]
  • 数值:集合是按数字顺序排列的。这只有在按属性分组为数字时才有可能。由于双精度值,这些值是有序的。上面提到的例子将被正确排序:[1,2,4,11,47]。这些值也可以是顺序正确的双精度值。
  • 事件:由于在原始ExampleSet中按属性分组的值的出现,该集合被排序。

更新了创建ExampleSet

操作符Create ExampleSet现在有一个额外的选项来修饰属性名。因此,您可以在分隔符周围插入空白以获得更好的可读性,但您可以通过操作符修剪它们。

此外,操作符现在可以正确解析要创建的ExampleSet的元数据,以便您可以在后续操作符中使用元数据。

- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
Telcontar120 Thomas_Ott pschlunder Pavithra_Rao

评论

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    非常酷!谢谢!

登录注册置评。