时间序列扩展新版本0.1.2与ARIMA培训师,移动平均线,和更多…
[摘自2017年10月17日的博客文章@tftemme]
在这篇文章中,我想给你一个关于alpha 0.1.2版本中已经提供的功能的简短概述。
图1:安装时间序列扩展后,RapidMiner Repository面板中时间序列扩展示例文件夹的图像。
时间序列扩展样本文件夹
从市场下载扩展后,它会在您的存储库面板中添加一个名为Time Series extension Samples folder的新文件夹。它包含一些时间序列数据集和一些流程模板。
在这篇博文中,我还将使用这些数据集和模板过程的变体来演示Time Series Extension的特性。
这篇文章中展示的过程也附在了文章中,所以如果你想的话,你可以自己尝试一下。
移动平均滤波器
我想展示的第一个运算符是移动平均过滤器。为了证明它的目的,我想分析“休伦湖”数据集。它描述了休伦湖(维基百科)在1875年至1972年期间。
当您从Samples文件夹(图2中的红线)加载数据时,您可以看到表面水平在不同的尺度上显示了一些变化。有一些高和低表面水平的时间窗。但也有一些小的变化,在那里可以看到嘈杂的数据。
为了使数据平滑一点,我们可以使用移动平均过滤算子。移动平均过滤器将过滤的值计算为相应值周围值的加权和。权重取决于过滤器的类型。目前支持三种不同的类型:简单的”,BINOM,和”SPENCERS_15_POINTS".
为“简单的“权重都是相等的。这个过滤器也被称为滚动平均值、滚动平均或类似的术语。结果如图2中的蓝线所示。
图2:休伦湖数据集的结果视图。原始数据(红线)和简单移动平均过滤器(蓝线)的结果显示。
平滑效应是清晰可见的,但也有一些不太明显的特征,比如从过滤后的数据中去除了1929年的大峰值。“BINOM"过滤类型可以改善过滤。在这种过滤器类型的情况下,权重遵循二项式表达式(1/2 + 1/2s)^(2q)的展开。例如,对于q = 2,权重为[1/ 16,4 / 16,6 / 16,4 / 16,1 /16]。
对于较大的滤波器尺寸,权重近似于正态(高斯)曲线。这种过滤器类型能够平滑数据,但保留数据中的更多特征。结果如图3所示。
图3:休伦湖数据集的结果视图。原始数据(红线)和BINOM移动平均过滤器的结果(蓝线)显示。
第三种过滤器类型(SPENCERS_15_POINTS)是一个特殊的过滤器,不适用于这个用例。
华宇电脑
在许多用例中,我们不仅要分析历史数据,还要预测未来的值。因此,我们可以使用ARIMA模型(维基百科)来预测由该模型描述的时间序列的下一个值。
例如,我们可以使用ARIMA训练算子将ARIMA模型拟合到休伦湖数据集的时间序列值。现在我们使用ARIMA训练算子的默认参数:p = 1个自回归项和q = 1个移动平均项。
图4显示了RapidMiner过程(包括上面描述的移动平均过滤器操作符)。
图4:用于分析休伦湖数据集的RapidMiner过程。包括两个移动平均滤波算子,以及ARIMA模型的拟合和数据集未来10年的预测。
应用预测运算符计算未来10年的预测值。预测的结果和原始的ExampleSet(包含原始数据和过滤后的数据)被连接在一起并传递到结果端口。
图5显示了原始的休伦湖数据(红线)和预测值(蓝线)。
图5:休伦湖数据集的结果视图。图中为原始数据(红线)和ARIMA模型预报结果(蓝线)。
Differentation
为了演示差分算子的用法,我使用了来自时间序列扩展样本文件夹的月度牛奶产量数据集。数据如图6(红线)所示。
图6:月度产奶量数据集的结果视图。原始数据(红线)和滞后= 1的微分算子(蓝线)的结果。
很明显,这些数据有季节性的变化。此外,牛奶产量从1962年到1972年有所增加,此后大致保持在同一水平。
如果我们对牛奶产量本身的增加感兴趣,我们可以使用微分算子对数据进行微分。结果(带参数)滞后设置为1)也显示在图6中(蓝线)。数据再次受到季节性因素的影响,因此很难找到牛奶产量增加改变其行为的时间窗口。
此时参数滞后可以使用。微分运算符将新值计算为y(t+lag) - y(t)。所以,滞后我们逐月计算增长。如果我们使用滞后= 12我们计算从一个月到下一年同月的增长,去除了差异化数据中的季节性。结果如图7(红线)所示。
图7:不同月产奶量数据集的结果视图。差异应用滞后= 12,从数据集中去除季节性。
我们现在可以看到,在1963年到1973年之间,每年的增长大约是15磅,有些时间窗口显示,1964年、1967年和1972年的增长甚至更高。在1973年、1974年和1975年至1976年之间,月产量甚至有所下降。
所以这里的微分运算符让我们有可能从数据中去除季节性,从而更好地了解我们的数据。
额外的运营商
此外,时间序列扩展还提供了一些更多的算子:
规范化操作符使您能够对时间序列数据进行规范化。
对数运算符使您能够将自然对数或公共对数应用于时间序列数据。
生成数据(ARIMA)为您提供了模拟时间序列数据的可能性,这些数据由ARIMA模型生成,其中的参数可以由用户指定。
检查等距操作符检查时间序列数据集的索引属性是否在毫秒级别上相等。
图8显示了用于分析月度牛奶产量数据集的RapidMiner过程。上面描述的微分算子以及一个归一化算子和一个对数算子被使用(后者用于演示算子的应用)。
图8:RapidMiner流程分析月度产奶量数据集包括两个微分算子以及对数算子和归一化算子。
我以第二种方法来结束这篇博文。在下一篇文章中,我将详细介绍如何使用ARIMA培训师和应用预测操作符,以及将其与优化操作符之一结合使用的可能性。
请随意发布每个bug,可用性问题,功能请求或任何反馈产品反馈区在RapidMiner社区。
(作者@tftemme来自RapidMiner研究公司
评论
我在下载你附加的程序时遇到了一些问题。
我已经安装了时间序列扩展,我可以打开模板没有任何问题。我可以运行它。
但当我可以试着打开你的*。rmp文件,那么RapidMiner Studio不识别这些操作符。
当我试图将其打开到RapidMiner Studio时,我将两个进程的错误附加在一起
谢谢你!
最好的问候,
Montse
当然,如果你想在RapidMiner中了解更多关于时间序列建模的信息,你可以加入我关于这个主题的专家课程,该课程将于3月1日开始运行//www.turtlecreekpls.com/training/)!
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
没有什么要补充的,谢谢@Telcontar120。如前所述,操作符现在被捆绑在RM Studio中,该线程进程中的操作符不再工作。但是您可以使用RM Studio中的工具来重新构建我在这里演示的过程(这可能是熟悉操作符的一个很好的教训)。
最好的问候,
费边
谢谢你的评论,@Telcontar120和@tftemme。
最好的问候,
Montse