新版本0.4的操作员工具箱扩展可用。

tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究
2018年12月编辑 知识库

操作者工具箱扩展的新版本0.4.0可用。

我们很高兴地宣布发布了一个新版本的操作员工具箱扩展。在0.4.0版本中,一些新的增强功能等待着您:

使用ExampleSet处理token

这个运算符是对文本处理扩展的增强。它可以在Process Documents Operator中使用。它用模式匹配规则替换文档中的术语。要过滤掉的令牌列表由包含替换规则的ExampleSet提供。

下面是这句话的结果:
"星期日,星期一,星期二,星期三,星期四,星期五都是一周的日子。周日和周六则不是。使用ExampleSet操作符的词干标记替换所有匹配的单词。*天工作日.左图显示了没有使用ExampleSet操作符的流程文档的结果,右图显示了使用Operator的结果。

stem_tokens_both.png

新的操作符类似于Stem (Dictionary)操作符,但使用的是exampleeset而不是文件。

证据的重要性

该算子引入了一种新的离散化方法。生成的值表示二项式属性(称为分布基数)在离散组中具有正或负的值。对于属于同一组的所有示例,此值是相同的。与其他离散化操作符不同,这个操作符为每个类分配数值。

如果证据权重值为正数,则该组中的示例更有可能具有正数分布基数属性胜过整个人群。证据权重值越高,阳性的可能性越大分布基数价值。

随附的教程过程有助于理解使用此算子作为其他离散化方法的替代品的有益方面。下图显示了在泰坦尼克号数据样本上应用证据权重算子的教程过程的结果。

WoE.png

将文档拆分为集合

该操作符将文档拆分为文档集合分割字符串参数。

例如,如果您读取了一个完整的文本文件(使用读取文档操作符),并希望将其分成不同的行来逐行处理该文件,那么这将非常有用。

查看操作符的教程过程,了解它是如何工作的。

基于词典的情感&应用基于词典的情感

在某些情况下,您希望基于给定的权重列表构建情感模型。权重代表一个词的消极/积极。这个字典的结构应该是这样的:

词的重量

异常1

流产的-0.4

荒谬的1

敏捷1

负担得起的1

新的基于字典的情感操作符可以处理这样的输入并从中创建一个模型。我们使用的单词列表提供于https://www.cs.uic.edu/~liub/它有两个单独的文件,分别存放褒义词和贬义词。经过快速的预处理,我们可以建立基于字典的模型。

基于字典的sentiment_1.png

创建的模型如下所示,可以与应用基于字典的情感操作符一起使用。它的输入是一个标记化文档的集合。这使您可以自由地使用所有文本挖掘操作符来准备文档。一个典型的工作流程是创建一个文档集合(例如,通过读取文档和循环文件)与循环集合相结合。在循环集合中,您可以使用文本处理扩展的所有不同操作符。

基于字典的sentiment_2.png

应用基于字典的情感操作符的结果是一个exampleeset,它具有:

  • 文本
  • 得分-例如,该文件的权重之和
  • 正性-例如,本文档的正权重之和
  • 否定性-例如,本文档的否定权值之和
  • 未覆盖的令牌——例如,在文档中但不在模型中的令牌

基于字典的sentiment_3.png

这个过程中所显示的图像是附在这篇文章。请随意查看。

性能(AUPCR)

Performance (AUPRC) Operator使您能够使用新的性能度量来评估二项分类问题。

AUPRC代表精确召回曲线下的面积,与AUC紧密相连。AUC测量假阳性率-真阳性率曲线下的曲线。AUPRC非常相似,但用精度代替假阳性率。

这是有益的,因为与FPR相比,精确度可能是一个更可解释的测量方法。另一方面,精确度是一种强烈依赖于类平衡的度量。如果您确实了解应用程序中的类平衡,那么使用AUPRC通常是有用的。

论文阅读:

多亏了@SvenVanPoucke感谢他的贡献

额外的变化

  • 改进了Tukey测试操作器的文档
  • 为扩展中的操作符添加了几个标签
  • Create ExampleSet操作符现在正确地使用在操作符的参数中指定的分隔符
  • Get Local Interpretation Operator现在有一个额外的outputPort,它包含所有本地模型的集合
  • 获取本地解释操作符现在正确地规范化输入数据。它现在还可以使用局部性启发式而不是直接指定局部性。
    登录注册置评。