运营商的工具箱运营商的工具箱

这个扩展将一些有用的附加操作符结合在一起。

这个扩展添加了一堆新的操作符到RapidMiner。从提高流程设计的灵活性和可用性的实用操作,到附加的离群值检测算法和附加的性能标准,再到本地解释或SMOTE算法等高级分析方法。

从2.6.0开始,扩展还向表达式解析器添加了新函数。这些函数可以在诸如“生成属性”、“筛选示例”、“创建示例集”等操作符中使用。

扩展为表达式解析器提供了以下附加函数:

  • 模糊匹配:

    • fuzzy_match(标称第一,标称第二,常量方法)

扩展提供了以下操作符:

  • 混合

    • 表格

      • 追加(超集)

      • 收集和保存

      • 模糊匹配

      • 生成聚合(高级)

      • 分组到集合

      • 合并属性

      • 样品收集

      • (多个)

    • 属性的一代

      • 计算重叠

      • 生成Levenshtein距离

      • 生成语音编码

      • 生成会话ID

      • 生成能量转换(2.13.0新增功能)

    • 构建模拟

    • 提取数据
    • 筛选缺少值的属性

    • 筛选缺少值的示例

    • 生成部分依赖图数据

    • 得到假期

    • 按多个示例重命名

    • 替换稀有值

    • 击杀Upsampling

    • 证据的分量

  • 数据访问:

    • 阅读Excel表格名称

    • 读取Office文件

    • 读SFTP

    • 阅读雅虎财经

    • 写SFTP

    • Un-gzip

  • 数据导出

    • 存储(标记)

  • 特征选择

    • 按权重选择(多)

  • 宏:

    • 提取宏(格式)

    • 提取最后修改运算符

    • 从ExampleSet中设置宏

    • 设置宏(实数)

  • 模型:

    • 检查型号一致性

    • 获取决策树路径

    • 全球语言监测机构的贡献

    • 本地传译(LIME)

    • 优化阈值

    • 优化阈值(子流程)

    • 随机森林编码器

  • 离群值:

    • 检测异常值(单变量)

    • 与世隔绝的森林

    • 图基测试

  • 参数:

    • 得到参数

    • 从ExampleSet中设置参数

  • 性能

    • 性能(AUPRC)

  • 文本处理:

    • 应用模型(文档)

    • 提取的情绪

    • 基于字典的情绪

    • 从数据中提取主题(LDA)

    • 从文档提取主题(LDA)

    • 使用ExampleSet筛选令牌

    • 将文档拆分为集合

    • 使用ExampleSet的词干标记

  • 实用程序

    • 执行远程程序

    • 列出存储库对象

    • 扫描过程中

    • 设置元数据

    • 子流程(缓存)

    • 试(多个)

    • 子进程(并行)(2.12.0中新增)

版本2.13.0 (22-02-23)

  • 新操作符:生成能量变换
    • 允许轻松计算BoxCox和YeoJohnson转换。

版本2.12.0 (21-10-06)

  • 新操作符:子进程(并行)
    • 允许显式并行子进程(并行执行能力仍然受到许可证的限制)。
  • 改进:
    • Execute Remote Program现在还提供错误输出,如果错误代码不是0,则默认失败,并且可以将结果记录在进程日志文件中。
  • 修正:
    • 修正了从数据/文档中提取主题(LDA)的错误,这在使用优化时创建了错误-修正了检测异常值(单变量)没有适当的元数据的错误。
    • 修复了合并属性操作符的错误。减少了Merge Attributes操作符执行后的通用内存分配
      • 此错误可能导致未完成的流程实例(以及操作符的大型并行执行)可能出现内存泄漏

版本2.11.0 (21006-22)

  • 新操作符:执行远程程序
    • 该操作符通过SSH在另一台计算机上执行命令。

版本2.10.0 (21004-30)

  • 新操作符:隔离林

    • 用于异常检测的树学习者。

  • 新操作符:按权重选择(多)

    • 该运算符通过…操作符和Select by Weights操作符合并为一个更方便的操作符。

    • 新运算符还支持用于计算属性权重的示例权重。

  • 增强

    • Tukey Test操作符现在有一个选项来忽略缺失的值。

    • 更改所有离群运算符的颜色和图标,以指示此类运算符的建模方面

    • 对LDA模型(由数据提取主题(Extract Topics from Data, LDA)和文档提取主题(Extract Topics from document, LDA)训练的模型)的评分进行了调整,使得模型在训练和应用中评分不存在差异。

      • LDA的结果与以前的版本相差不大

    • 更新RM Text扩展的依赖从7.4.1到9.3.1

    • 代码库的内部重构

版本2.9.0 (21-01-22)

  • 新运营商:阅读雅虎财经

    • 从雅虎财经获取特定时间段的股票数据。

  • 增强提取情绪:
    • 增加了两个新的字典:Vader(法语)和Vader(德语)。

    • 改变默认的标记正则表达式[\ s \ W -!"#$%&'()*+,./:;<=>?@[\]_`{|}~].现在像“großartig”这样的单词被正确处理了。

  • 增强LDA:

    • 增加选项使用停止词消除在几种语言。默认情况下使用英文停止词删除。

    • 为LDA增加了“显示优化设置”的设置,使其更容易使用。

  • 读取SFTP:

    • 修正了一个错误,使读取SFTP忽略代理。

版本2.8.1 (2020-12-01)

  • 新操作符:Store(已标记)
    • 用当前的Date、Process和GIT信息标记每个存储操作(提交散列、作者、提交msg)。
  • 新算子:检测离群值(单变量)
    • 检测数据集中的单变量异常值。
  • 新操作符:扫描进程
    • 遍历存储库并返回每个流程中使用的操作符列表。
  • 新建操作符:列出存储库对象
    • 在存储库的文件夹结构中列出所有对象(表、模型、流程等)。
  • 改进的读写SFTP:
    • 增加SFTP连接对象的私钥选项
  • 修复了设置元数据的错误
    • 修复了元数据不存在时的异常

版本2.7.0 (2020-09-15)

  • 新操作符:Sort (Multiple)
    • 允许根据多个属性对示例集排序。
  • 新操作符:Try (Multiple)
    • 类似于处理异常,但允许您尝试多个变体。
  • Fuzzy Matching:模糊匹配
    • 类似于交叉距离,但与Levenshtein距离。
  • 新建操作符:设置元数据
    • 允许您手动更改示例设置的元数据。
  • 新操作符:生成聚合(高级)
    • 类似于生成聚合,但有额外的功能。
  • 将“读取Word文件”重命名为“读取Office文件”
    • Read Office Files可以读取ppt和pptx以及doc和docx。
  • 修正:
    • 获取决策树路径操作符中的Bug,它为名义属性创建了看似错误和随机的分割
    • 如果您添加了不存在的文本属性,则会在提取主题(数据)中导致NPE的错误。它现在抛出一个错误。
    • 标签类中的结尾空白在smte中会导致误导性错误消息的错误。

版本2.6.0 (2020-06-10)

  • 表达式解析器中的新函数:
    • ?fuzzy_match:该函数允许您使用基于Levenshtein的各种度量来比较两个标称值
  • 修复构建模拟操作符:
    • 修正了一个阻止模拟模型在存储库中存储后被检索的错误

版本2.5.0 (2020-06-03)

  • 替换操作符“SFTP下载文件”和“SFTP上传文件”,改为“读SFTP”和“写SFTP”

    • 旧的流程仍然可以使用旧的实现。

    • 读SFTP和写SFTP支持新的连接管理框架和代理,并使用文件对象(紫色的IOObjects)更容易使用。

  • 新操作符:应用关联规则(详细信息)

    • 它应用关联规则,并提供比原始结果更详细的结果。这包括对任何给定示例及其相应度量的所有应用规则。

  • 增强构建仿真算子

    • Build Simulation现在可以通过指定一个参数或提供一个示例集来强制某些生成的属性为常量

版本2.4.0 (2020-04-28)

  • 新操作符:构建仿真
    • 生成与参考数据集具有相似统计属性的新人工数据
  • 新操作符:按多个示例重命名
    • 使用多个示例和指定的填充字符重命名属性
  • 新操作符:Un-Gzip
    • 解压gzip压缩文件
  • 增强功能:
    • 基于词典的情感(文档):
      • 运算符现在支持加强词(如“very”或“relative”,它们增强或减弱前面或后面的词)
      • 算符现在可以有负的权值
    • 提取的情绪
      • 运营商现在正在使用新的连接管理
  • 其他:
    • Operator Toolbox Extension 2.4.0至少需要RM Studio 9.4.1

版本2.3.0 (2019-12-18)

  • 新运营商:Get Holidays
    • 返回给定天数内给定国家的每个假日(国家假日和州假日)
  • 新操作符:Subprocess(缓存)
    • 替换'Subprocess'操作符,允许在设计期间缓存结果。这允许更快的过程原型
  • 增强
    • Sample(集合):在引导时,samplesize不再需要小于集合大小。这允许过采样。
    • 提取宏(格式)现在允许提取集合中的项的数量。
    • 优化阈值和优化阈值(子进程)现在记录各自的性能值。
  • 修正:
    • 修正了在“Smote Upsampling”中将日期视为名义属性并导致崩溃的错误。日期现在被视为任何其他数字属性。
    • 修正了一个错误,即样本(集合)在bootstrap模式下从集合的开始获取大部分项目

产品详细信息

版本 2.13.0
文件大小 19 MB
下载 173437(69今天)173437下载
供应商 RapidMiner实验室
类别 运营商
发布 2/23/22
最后一次更新 2/23/22上午8:39
(变化)
许可证 AGPL
产品网站
评级 0.0星(0)