时间序列扩展- 0.1.2版的功能
亲爱的社区,
这是新计划的系列博客文章的第二篇时间序列扩展(市场).
在这篇文章中,我想给你一个关于alpha 0.1.2版本中已经提供的功能的简短概述。
图1:安装时间序列扩展后,RapidMiner Repository面板中时间序列扩展示例文件夹的图像。
时间序列扩展样本文件夹
从市场下载扩展后,它会在您的存储库面板中添加一个名为Time Series extension Samples folder的新文件夹。它包含一些时间序列数据集和一些流程模板。
在这篇博文中,我还将使用这些数据集和模板过程的变体来演示Time Series Extension的特性。
这篇文章中展示的过程也附在了文章中,所以如果你想的话,你可以自己尝试一下。
移动平均滤波器
我想展示的第一个运算符是移动平均过滤器。为了证明它的目的,我想分析“休伦湖”数据集。它描述了休伦湖(维基百科)在1875年至1972年期间。
当您从Samples文件夹(图2中的红线)加载数据时,您可以看到表面水平在不同的尺度上显示了一些变化。有一些高和低表面水平的时间窗。但也有一些小的变化,在那里可以看到嘈杂的数据。
为了使数据平滑一点,我们可以使用移动平均过滤算子。移动平均过滤器将过滤的值计算为相应值周围值的加权和。权重取决于过滤器的类型。目前支持三种不同的类型:简单的”,BINOM,和”SPENCERS_15_POINTS".
为“简单的“权重都是相等的。这个过滤器也被称为滚动平均值、滚动平均或类似的术语。结果如图2中的蓝线所示。
图2:休伦湖数据集的结果视图。原始数据(红线)和简单移动平均过滤器(蓝线)的结果显示。
平滑效应是清晰可见的,但也有一些不太明显的特征,比如从过滤后的数据中去除了1929年的大峰值。“BINOM"过滤类型可以改善过滤。在这种过滤器类型的情况下,权重遵循二项式表达式(1/2 + 1/2s)^(2q)的展开。例如,对于q = 2,权重为[1/ 16,4 / 16,6 / 16,4 / 16,1 /16]。
对于较大的滤波器尺寸,权重近似于正态(高斯)曲线。这种过滤器类型能够平滑数据,但保留数据中的更多特征。结果如图3所示。
图3:休伦湖数据集的结果视图。原始数据(红线)和BINOM移动平均过滤器的结果(蓝线)显示。
第三种过滤器类型(SPENCERS_15_POINTS)是一个特殊的过滤器,不适用于这个用例。
华宇电脑
在许多用例中,我们不仅要分析历史数据,还要预测未来的值。因此,我们可以使用ARIMA模型(维基百科)来预测由该模型描述的时间序列的下一个值。
例如,我们可以使用ARIMA训练算子将ARIMA模型拟合到休伦湖数据集的时间序列值。现在我们使用ARIMA训练算子的默认参数:p = 1个自回归项和q = 1个移动平均项。
图4显示了RapidMiner过程(包括上面描述的移动平均过滤器操作符)。
图4:用于分析休伦湖数据集的RapidMiner过程。包括两个移动平均滤波算子,以及ARIMA模型的拟合和数据集未来10年的预测。
应用预测运算符计算未来10年的预测值。预测的结果和原始的ExampleSet(包含原始数据和过滤后的数据)被连接在一起并传递到结果端口。
图5显示了原始的休伦湖数据(红线)和预测值(蓝线)。
图5:休伦湖数据集的结果视图。图中为原始数据(红线)和ARIMA模型预报结果(蓝线)。
Differentation
为了演示差分算子的用法,我使用了来自时间序列扩展样本文件夹的月度牛奶产量数据集。数据如图6(红线)所示。
图6:月度产奶量数据集的结果视图。原始数据(红线)和滞后= 1的微分算子(蓝线)的结果。
很明显,这些数据有季节性的变化。此外,牛奶产量从1962年到1972年有所增加,此后大致保持在同一水平。
如果我们对牛奶产量本身的增加感兴趣,我们可以使用微分算子对数据进行微分。结果(带参数)滞后设置为1)也显示在图6中(蓝线)。数据再次受到季节性因素的影响,因此很难找到牛奶产量增加改变其行为的时间窗口。
此时参数滞后可以使用。微分运算符将新值计算为y(t+lag) - y(t)。所以,滞后我们逐月计算增长。如果我们使用滞后= 12我们计算从一个月到下一年同月的增长,去除了差异化数据中的季节性。结果如图7(红线)所示。
图7:不同月产奶量数据集的结果视图。差异应用滞后= 12,从数据集中去除季节性。
我们现在可以看到,在1963年到1973年之间,每年的增长大约是15磅,有些时间窗口显示,1964年、1967年和1972年的增长甚至更高。在1973年、1974年和1975年至1976年之间,月产量甚至有所下降。
所以这里的微分运算符让我们有可能从数据中去除季节性,从而更好地了解我们的数据。
额外的运营商
此外,时间序列扩展还提供了一些更多的算子:
规范化操作符使您能够对时间序列数据进行规范化。
对数运算符使您能够将自然对数或公共对数应用于时间序列数据。
生成数据(ARIMA)为您提供了模拟时间序列数据的可能性,这些数据由ARIMA模型生成,其中的参数可以由用户指定。
检查等距操作符检查时间序列数据集的索引属性是否在毫秒级别上相等。
图8显示了用于分析月度牛奶产量数据集的RapidMiner过程。上面描述的微分算子以及一个归一化算子和一个对数算子被使用(后者用于演示算子的应用)。
图8:RapidMiner流程分析月度产奶量数据集包括两个微分算子以及对数算子和归一化算子。
我以第二种方法来结束这篇博文。在下一篇文章中,我将详细介绍如何使用ARIMA培训师和应用预测操作符,以及将其与优化操作符之一结合使用的可能性。
请随意发布每个bug,可用性问题,功能请求或任何反馈产品反馈区在RapidMiner社区。
时间序列扩展博客文章:
02 0.1.2版本的特性
答案
你让我很高兴与这个扩展。
这是给你的,@luc_bartkowski!!
@sgenzer谢谢你,斯科特。?
我有一个模型可以提供相同的预测。是的,我的产品待办事项列表中的一个功能就是整合移动平均线。
但首先是匡德尔。很高兴地说,我完全理解你的阿尔法优势的实现。也谢谢你的例子。
问候,
卢克
嗨,看起来很有趣,祝贺你!
有人在RM中使用过多元时间序列吗?https://machinelearningmastery.com/multivariate-time-series-forecasting-lstms-keras/
这是医学分析的一个重要部分。
干杯
斯文
终于有机会玩这个-非常好!一个功能要求是一次选择多个属性用于移动平均线、差异化等....使用一些自动命名的新属性。例如,对于具有7天窗口的移动平均线,它可以是<时间序列属性>_SIMPLEAVG_7。
你好,
我是新来的,所以也许有一个愚蠢的问题:
您已经附加了2个文件。我想这是rapidminer文件,对吧?但是当我下载这些文件时,我无法用我的快速矿工打开它。有人能帮我一下吗?当我关注你的评论时,我确实得到了不同的图像。所以我做错了什么。
谢谢!
嗨@maurits_freriks—那些.rmp文件是快速miner进程。如果你双击它们,它们可能不会在RapidMiner中打开,因为它是其他软件使用的相同扩展。我建议将这些文件移动到本地存储库文件夹。你应该能够看到他们从RapidMiner之后。
谢谢你的更新。将下载这个扩展,并很快尝试出来。
你好,
我发现很难不把注意力集中在这篇论文上!:https://arxiv.org/pdf/1703.07015.pdf
手稿末尾的图形多么吸引人啊。
干杯
斯文
我的数据挖掘作业需要10万字。非常感谢。美好的一天