如何选择正确的数据进行预测?
User111113
成员职位:24Maven
在帮助
你好,
我有大约2年的历史数据,我可以用来预测反应。
例如,如果我必须预测2020年1月的回复率,我怎么能说多少数据才足够接近实际回复率呢?
------我应该看看我的数据在2018年1月、2019年1月和2019年最后4个月的表现
-----或者它应该持续到2019年的几个月和2019年1月
-----或者可能使用我所有的东西,但我不舒服,因为有很多异常值
当我比较过去几个月的实际数据和预测数据时,他们似乎一点都不接近,因为这是手工(在一张纸上)做的。
如何选择正确的数据?
谢谢你!
我有大约2年的历史数据,我可以用来预测反应。
例如,如果我必须预测2020年1月的回复率,我怎么能说多少数据才足够接近实际回复率呢?
------我应该看看我的数据在2018年1月、2019年1月和2019年最后4个月的表现
-----或者它应该持续到2019年的几个月和2019年1月
-----或者可能使用我所有的东西,但我不舒服,因为有很多异常值
当我比较过去几个月的实际数据和预测数据时,他们似乎一点都不接近,因为这是手工(在一张纸上)做的。
如何选择正确的数据?
谢谢你!
标记:
1
最佳答案
-
PaulMSimpson 成员职位:8因素二世让我帮您划分一个日期,根据您的喜好,划分几个月以前的数据。我是RapidMiner的新手,之前在R中完成了大部分数据科学工作。乐鱼平台进入因此,我不知道我将要向您展示的是在某个日期分割数据集的最简单或最好的方法,但它确实有效。
首先,您需要创建第三列,该列包含月份列“/1/”和年份列,这样现在您将拥有所有记录的实际日期值,例如5/1/2018。我建议使用Generate Attributes操作符,然后通过添加一个属性名“myDate”来编辑列表,在函数表达式字段中,放置这个:date_parse([yourMonthCol] + "/" + [yourYearCol]),当然,使用您自己的月份列和年份列的名称。
其次,在您的检索操作符之后,只放置一个Filter Examples操作符(您只需要其中一个,因为您将使用“unm”节点和所有不匹配的记录作为您的测试数据。无论如何,我使用了“expression”条件类,并注意我使用date_before()函数在参数表达式中放入了什么。第一个参数是日期字段的名称,第二个参数是date_parse(),在这里将表示计划作为日期分割点的日期的字符串转换为日期数据类型。
7
答案
感谢您的回复。我会尝试两种方法,在这种情况下,哪种方法更好地测试准确性?
为了验证,我使用交叉或分裂,但在这种情况下,我会使用交叉或任何其他建议,欢迎。
我做了一个性能测试,将我预测的4个月(7月至10月)的响应率的原始数据放在一起,我已经有了实际/原始数据,所以我将其作为输入,看看结果集与原始的偏差有多大,我得到的均方误差为0.016
这还不错,你觉得呢?
另一种方法是在RM中加载数据之前添加状态列,这是我所做的,并将其划分为旧/新,但仍然分割运算符只采用标准值之类的比率和其他默认列…如何使用状态列从我的数据分割。
此外,我使RR列空白的状态是新的,因为这将是我的测试数据。
请帮忙,谢谢。