介绍新的Shapelet扩展

tftemme · 2019年2月

介绍新的Shapelet扩展

我们，RapidMiner的研究部门，很高兴地宣布新的Shapelet扩展0.1.0版本的发布。发现新的可能性来分析复杂的时间序列数据。对数据执行特定于问题的特征转换，并基于时间序列中的底层模式。

Shapelet算法是在欧盟资助的研究项目PRESED中开发的(参见[1]和[2])，该项目专注于钢铁行业传感器数据挖掘的质量预测。

shapelets的基本思想是，时间序列中的子序列可以表示整个时间序列中重复出现的模式，因此可以将其视为时间序列数据的基函数。此外，一些子序列可能只出现在数据的某些类别中，它们的出现可以用来训练机器学习模型来预测这些类别。

图1:Shapelet算法(也称为EAST)的原理。[3]

为了检索好的候选形状，子序列是从时间序列批次的集合中随机抽取的。然后使用这些候选者在单独的时间序列上执行特征转换。然后将shapelet与新时间序列批进行比较，计算候选shapelet与新时间序列批之间的最小距离。如果许多批次的最小距离很小，则可以认为shapelet在时间序列中经常出现，然后可以将其表示为基函数。

扩展提供了4个新的操作符:

创建搜索空间操作符:

此操作符用于从输入批的集合中绘制候选形状。候选对象收集在“shapelet模型”结果端口处提供的新shapelet模型中。

图2:演示使用create Searchspace操作符创建shapelet模型的过程。

图3:Shapelet模型的可视化选项卡。

Shapelet变换算子:

该操作符接受一个shapelet模型，并对一组输入批次执行特征转换。生成的特征(例如shapelets和新时间序列之间的最小距离)在“features”输出端口提供。

图4:使用Shapelet transformation操作符执行特征转换的演示流程。

图5:shape变换的结果特征向量。

按权重选择Shapelets操作符:

该算子可用于从整个shapelet模型中选择最有意义的shapelet。首先使用Create Searchspace操作符创建一个shapelet模型。然后对标记的数据执行shapelet变换，并使用任意“Weight by”算子根据标签确定计算出的特征的权重。然后，您可以使用Select Shapelet by Weight操作符中的属性权重，仅选择最重要的Shapelet(基函数)并将它们应用于未见过的数据

图6:演示过程，通过使用Select shapelets by Weight操作符，将模型中的shapelets数量减少到只剩下主要shapelets。

图7:从shapelet变换中计算出的特征权重。

图8:简化的shapelet模型，只选择高特征权重的shapelet。

Shapelet Model to ExampleSet操作符

该操作符可用于将shapelet模型中的shapelets转换为ExampleSet以进一步研究它们。

您可以在Marketplace (Shapelet扩展）.更多信息参见[3]

[1]陈建军，陈建军，陈建军，陈建军，陈建军，陈建军，陈建军:一种钢铁生产质量改进的参考体系结构。2017年第1届国际数据科学会议，江苏江苏乐鱼平台进入

[2]李建军，李建军，李建军，等。智能数据 r模Qualitätskontrolle在der stahlproduction;Tagungsband 20。IFF-Wissenschaftstage;21 - 22。2017年6月，马格德堡

[3]陈晓明，陈晓明，陈晓明。基于时间序列的时间模式识别方法研究，计算机科学与技术，2016 (1)

hughesfleming68 · 2019年2月

有可能在论坛上有一个扩展部分吗?如果我没有看到@tftemme我可能从来没有遇到过这个。也可以在这里发布更多的pdf文件，进一步解释这些新工具的概念以及进一步的讨论。

对于网上发布的相关文章也应该有一些沟通。比如，如果我没有跟踪马丁·施密茨@mschmitz我会错过他在媒体上发表的所有文章。用户不应该偶然遇到这个。

我已经附上了相关的pdf。我希望这是可能的，因为这将非常有帮助。

问候,

亚历克斯

MartinLiebig · 2019年2月

嗨@hughesfleming68，

什么是更好的格式?时事通讯?

BR,

马丁

hughesfleming68 · 2019年2月

嗨，马丁，时事通讯是个好主意。我认为在论坛上的文章和链接的描述部分也将工作。有很多内容是新用户无法找到的，除非他们被引导。我在媒体上读了你关于随机森林编码器的文章。我相信很多人都错过了它，因为没有一个简单的方法来找到它。应该有更好的组织方式。

亚历克斯

sgenzer · 2019年2月

所以这是论坛的“部分”，专门用于扩展:https://community.www.turtlecreekpls.com/discussions/tagged/Extensions我知道这看起来很奇怪，没有更多的类别，但新的标签系统的优势是一个主题可以在多个类别中，例如:“扩展”和“时间序列”。我相信如果你愿意，你可以把这些变成RSS提要。我自己没有这样做过，但我相信@BalazsBarany所做的事。

斯科特

BalazsBarany · 2019年2月

当然，只要在浏览器的屏幕上打开页面源代码(Ctrl+u)(包括标记的页面)并搜索feed.rss即可。

方 · 2019年3月

恭喜。如果可以的话，请允许我指出原始的Shapelet纸。巧的是，十年前的这个星期，Shapelets被发明了。
叶乐祥，Eamonn J. Keogh:时间序列小波:一种新的数据挖掘原语。KDD 2009: 947-956

Oprick · 2019年3月

恭喜你!看起来很有前途

David_A · 2019年3月

欢迎来到这个社区@Eamonn，

祝贺你们结婚周年。我们希望，你喜欢什么，我们已经建立和您的任何反馈将不胜感激。

最好的
大卫

土地 · 2019年5月

你好,

太好了，我在找这个来分析传感器数据。我认为曲线的形状对于预测接下来会发生什么是相对重要的。

然而，我正在努力应用这个扩展操作符。我有一个包含大约60万个样本的数据集，我目前选择了60个传感器。它似乎不能从这个例子中得出结论。(有一个错误抛出-692.322.231组合是可能的，但我选择1000。我需要选择的比可能的少)

我发现，我可以将数据转换成窗口后创建搜索空间。但是，对于窗口宽度为20的情况，这只是将内存消耗乘以大约100倍(每个窗口都成为一个示例集，对数据本身具有巨大的开销)。所以我32gb的机器内存快用完了。

有没有计划让它与更大的数据集兼容?这将需要简单地从原始数据集本身绘制，并有一个参数来选择窗口的宽度。我还需要将其应用于时间序列数据本身而不进行转换。

如果不是，它是基于开源的吗?这样我们就可以把它扩展到我们自己并做出贡献?

问候,

塞巴斯蒂安。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

介绍新的Shapelet扩展

介绍新的Shapelet扩展

创建搜索空间操作符:

Shapelet变换算子:

按权重选择Shapelets操作符:

Shapelet Model to ExampleSet操作符

评论