“时间序列问题”
我已经浏览了教程和文档,以及我在Neural Markets找到的视频。总的来说,它仍然是一款非常酷的产品。我是数据挖掘的新手,所以请温柔点:-)
我有一些时间序列数据(销售数据)。我已经(使用Excel) ETL了一些数据,所以我有这些列:
dayOfYear (id), month, dayOfMonth, monthOfYear, dayOfWeek, weekOfYear, year, salesOfDay
我以这种方式将它分割开来,这样我就可以看到,例如,促销是否更经常发生在周一,或者可能是在每月的第10天等等……这是必要的吗,还是某个运算符已经这样做了?
我对这些值进行了标准化/缩放,使它们都在0…1,简单地将每一列除以该列中最大的值。[这一步似乎是libSVM从命令行要求的,它是在快速Miner中要求的,或者有一个操作符来做这个(这将是非常方便!!)?]
然而,我很难使用任何一个学习器.....因为他们似乎几乎都需要标签。我知道哪个是id字段。然而,最终的目标是尝试并预测未来30个salesOfDay周期。这些列是标签还是属性?
我相信在本期节目中我还会有更多的问题....
--
安东尼
我有一些时间序列数据(销售数据)。我已经(使用Excel) ETL了一些数据,所以我有这些列:
dayOfYear (id), month, dayOfMonth, monthOfYear, dayOfWeek, weekOfYear, year, salesOfDay
我以这种方式将它分割开来,这样我就可以看到,例如,促销是否更经常发生在周一,或者可能是在每月的第10天等等……这是必要的吗,还是某个运算符已经这样做了?
我对这些值进行了标准化/缩放,使它们都在0…1,简单地将每一列除以该列中最大的值。[这一步似乎是libSVM从命令行要求的,它是在快速Miner中要求的,或者有一个操作符来做这个(这将是非常方便!!)?]
然而,我很难使用任何一个学习器.....因为他们似乎几乎都需要标签。我知道哪个是id字段。然而,最终的目标是尝试并预测未来30个salesOfDay周期。这些列是标签还是属性?
我相信在本期节目中我还会有更多的问题....
--
安东尼
标记:
0
答案
谢谢你的夸奖。不幸的是,时间序列预测不是最容易建立的过程,因此不是RapidMiner的最佳开始方式。但我将试着概述一些你必须考虑的要点:
1)对于回归任务,您应该将标称属性二值化。这也适用于日期列。由于您包含了许多不同的日期值,您应该真正考虑哪些是您真正需要的。这是因为,二值化为每个属性值创建一个属性,指示属性是否具有该值。
2)当然,如果你处理监督学习(特别是处理回归和时间序列回归),你总是必须有一个标签。在时间序列回归中,你通常在同一时间序列的未来值上回归过去。因此,您必须将仅包含在一个属性中的时间序列转换为包含该序列的过去值的属性和包含同一序列的未来值的标签的数据。这可以通过[tt]MultivariateSeries2WindowExamples[/tt]操作符来完成。
注意,这些点只考虑基本变换是时间序列回归的一部分。还有其他一些问题需要解决,但这超出了这个论坛的可能性,这意味着我宁愿写一本书……
如果你想快速获得这方面的知识,也许我们特别关注时间序列预测的培训课程会让你感兴趣?
问候,
托拜厄斯
我当然可以理解,时间序列并不是开始使用RapidMiner的最简单方法——但我想要应用数据挖掘的所有潜在问题都与时间序列相关。
关于培训系列,我当然很感兴趣。不幸的是,我在美国,去德国需要一个星期或更长的时间,可能需要花费大约8000美元的课程费用,到那时我已经支付了课程/旅行等费用……随着我们可爱的经济有一些问题....这不太可行。有美国培训课程的计划吗?
或者,可能更好的是,把它们录下来....并以DVD或在线培训的形式出售?
谢谢!
事实上,我们今年去过美国,并在那里上了一些培训课程。但我们至少在明年之前不会回来。至于视频或在线培训,我们肯定会推出类似的东西。但这也需要一些时间……如果这样的东西变得可用,我们肯定会在论坛上宣布这一点。
说到论坛,你肯定会得到一些关于如何做时间序列预测的想法。如果你有具体的问题,当然欢迎提出来。
问候,
托拜厄斯
每年的第一天,每周的第一天,每月的第一天,工作日,销售
即:
1, 1, 1, 1345 .78点
会是1月1日,周一,卖出345.78美元吗
在R中使用RandomForest是使用回归树。这两个学习者都能够产生良好的有效结果,这些结果都在“真实”值....的可接受范围内例如,这个过程似乎工作正常。
我现在试图在RapidMiner内部做同样的事情,但遇到了一些问题。显然,RandomForest实现不能处理数字标签(和/或回归)?我将上面的列设置为:
一年的日期=象征性的
星期几=象征性的
月年=名义上的
工作日=名义的
销售=真实(标签)
所以,我尝试使用多项式回归....这在上面的设置中是行不通的(也许不应该是这样)。(有趣的是,使用上面的设置,并运行多项式回归…错误是“不支持多项式属性”。)
如果我真的把它们都改为数字,多项式回归确实会给我一些结果,但我不确定该如何处理它们(它似乎是一个我可以用来预测新销售的公式,我认为这是有用的)。
假设多项式回归是我想要的....我如何(或我可以)实际上让它“预测”一些东西(我假设我只是把公式填进去)?
使用上面的设置,是否有更好的方法来做到这一点?
谢谢!