介绍新的Shapelet扩展

tftemmetftemme 管理员、员工、RapidMiner认证分析师、RapidMiner认证专家、RMResearcher、会员职位:164RM研究

介绍新的Shapelet扩展

我们,RapidMiner的研究部门,很高兴地宣布新的Shapelet扩展0.1.0版本的发布。发现新的可能性来分析复杂的时间序列数据。对数据执行特定于问题的特征转换,并基于时间序列中的底层模式。

Shapelet算法是在欧盟资助的研究项目PRESED中开发的(参见[1]和[2]),该项目专注于钢铁行业传感器数据挖掘的质量预测。

shapelets的基本思想是,时间序列中的子序列可以表示整个时间序列中重复出现的模式,因此可以将其视为时间序列数据的基函数。此外,一些子序列可能只出现在数据的某些类别中,它们的出现可以用来训练机器学习模型来预测这些类别。


图1:Shapelet算法(也称为EAST)的原理。[3]

为了检索好的候选形状,子序列是从时间序列批次的集合中随机抽取的。然后使用这些候选者在单独的时间序列上执行特征转换。然后将shapelet与新时间序列批进行比较,计算候选shapelet与新时间序列批之间的最小距离。如果许多批次的最小距离很小,则可以认为shapelet在时间序列中经常出现,然后可以将其表示为基函数。

扩展提供了4个新的操作符:

创建搜索空间操作符:

此操作符用于从输入批的集合中绘制候选形状。候选对象收集在“shapelet模型”结果端口处提供的新shapelet模型中。


图2:演示使用create Searchspace操作符创建shapelet模型的过程。

图3:Shapelet模型的可视化选项卡。

Shapelet变换算子:

该操作符接受一个shapelet模型,并对一组输入批次执行特征转换。生成的特征(例如shapelets和新时间序列之间的最小距离)在“features”输出端口提供。

图4:使用Shapelet transformation操作符执行特征转换的演示流程。

图5:shape变换的结果特征向量。

按权重选择Shapelets操作符:

该算子可用于从整个shapelet模型中选择最有意义的shapelet。首先使用Create Searchspace操作符创建一个shapelet模型。然后对标记的数据执行shapelet变换,并使用任意“Weight by”算子根据标签确定计算出的特征的权重。然后,您可以使用Select Shapelet by Weight操作符中的属性权重,仅选择最重要的Shapelet(基函数)并将它们应用于未见过的数据

图6:演示过程,通过使用Select shapelets by Weight操作符,将模型中的shapelets数量减少到只剩下主要shapelets。

图7:从shapelet变换中计算出的特征权重。

图8:简化的shapelet模型,只选择高特征权重的shapelet。

Shapelet Model to ExampleSet操作符

该操作符可用于将shapelet模型中的shapelets转换为ExampleSet以进一步研究它们。

您可以在Marketplace (Shapelet扩展).更多信息参见[3]

[1]陈建军,陈建军,陈建军,陈建军,陈建军,陈建军,陈建军:一种钢铁生产质量改进的参考体系结构。2017年第1届国际数据科学会议,江苏江苏乐鱼平台进入

[2]李建军,李建军,李建军,等。智能数据 r模Qualitätskontrolle在der stahlproduction;Tagungsband 20。IFF-Wissenschaftstage;21 - 22。2017年6月,马格德堡

[3]陈晓明,陈晓明,陈晓明。基于时间序列的时间模式识别方法研究,计算机科学与技术,2016 (1)

BalazsBarany SGolbert Telcontar120 eackley29 IngoRM lionelderkrikor yyhuang jwpfau

评论

  • hughesfleming68hughesfleming68 成员职位:323独角兽
    2019年2月编辑
    有可能在论坛上有一个扩展部分吗?如果我没有看到@tftemme我可能从来没有遇到过这个。也可以在这里发布更多的pdf文件,进一步解释这些新工具的概念以及进一步的讨论。

    对于网上发布的相关文章也应该有一些沟通。比如,如果我没有跟踪马丁·施密茨@mschmitz我会错过他在媒体上发表的所有文章。用户不应该偶然遇到这个。

    我已经附上了相关的pdf。我希望这是可能的,因为这将非常有帮助。

    问候,

    亚历克斯


    kayman jacobcybulski
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3357年RM数据科学家

    什么是更好的格式?时事通讯?

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • hughesfleming68hughesfleming68 成员职位:323独角兽
    2019年2月编辑
    嗨,马丁,时事通讯是个好主意。我认为在论坛上的文章和链接的描述部分也将工作。有很多内容是新用户无法找到的,除非他们被引导。我在媒体上读了你关于随机森林编码器的文章。我相信很多人都错过了它,因为没有一个简单的方法来找到它。应该有更好的组织方式。

    亚历克斯
  • sgenzersgenzer 管理员,版主,员工,RapidMiner认证分析师,社区经理,成员,大学教授,PM版主职位:2959年社区经理
    所以这是论坛的“部分”,专门用于扩展:https://community.www.turtlecreekpls.com/discussions/tagged/Extensions我知道这看起来很奇怪,没有更多的类别,但新的标签系统的优势是一个主题可以在多个类别中,例如:“扩展”和“时间序列”。我相信如果你愿意,你可以把这些变成RSS提要。我自己没有这样做过,但我相信@BalazsBarany所做的事。

    斯科特
    hughesfleming68 rfuentealba
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:909独角兽
    当然,只要在浏览器的屏幕上打开页面源代码(Ctrl+u)(包括标记的页面)并搜索feed.rss即可。
    sgenzer hughesfleming68 rfuentealba
  • 方 成员职位:1学我
    恭喜。如果可以的话,请允许我指出原始的Shapelet纸。巧的是,十年前的这个星期,Shapelets被发明了。
    叶乐祥,Eamonn J. Keogh:时间序列小波:一种新的数据挖掘原语。KDD 2009: 947-956
    varunm1 hughesfleming68 rfuentealba
  • OprickOprick 成员职位:35因素二世
    恭喜你!看起来很有前途微笑:
  • David_ADavid_A 管理员、版主、员工、RMResearcher、会员职位:292RM研究
    2019年3月编辑
    欢迎来到这个社区@Eamonn

    祝贺你们结婚周年。我们希望,你喜欢什么,我们已经建立和您的任何反馈将不胜感激。

    最好的
    大卫


    rfuentealba
  • 土地土地 RapidMiner认证分析师,RapidMiner认证专家,成员职位:2531年独角兽
    你好,
    太好了,我在找这个来分析传感器数据。我认为曲线的形状对于预测接下来会发生什么是相对重要的。
    然而,我正在努力应用这个扩展操作符。我有一个包含大约60万个样本的数据集,我目前选择了60个传感器。它似乎不能从这个例子中得出结论。(有一个错误抛出-692.322.231组合是可能的,但我选择1000。我需要选择的比可能的少)
    我发现,我可以将数据转换成窗口后创建搜索空间。但是,对于窗口宽度为20的情况,这只是将内存消耗乘以大约100倍(每个窗口都成为一个示例集,对数据本身具有巨大的开销)。所以我32gb的机器内存快用完了。
    有没有计划让它与更大的数据集兼容?这将需要简单地从原始数据集本身绘制,并有一个参数来选择窗口的宽度。我还需要将其应用于时间序列数据本身而不进行转换。
    如果不是,它是基于开源的吗?这样我们就可以把它扩展到我们自己并做出贡献?

    问候,
    塞巴斯蒂安。

    varunm1 Tghadially
登录注册置评。