告诉k-NN(可能还有其他模型)忽略日期超过未标记记录时间的训练数据
我有一个大的新闻记录数据库和它们发布的时间戳。我目前正在尝试使用k-NN,通过将新闻与过去发生的类似案例进行比较,来对公司的股票行为进行分类。当然,我不希望这个模型使用任何在有问题的新闻之后发布的新闻,因为这不是一个现实的方法。
我想知道是否有一种方法来实现这在RM?目前,我将数据过滤为“20121-05-03之前的新闻”和“20121-05-03发布的新闻”,并将这两个流分别馈送给训练流和未标记流。
你可以想象,这不是一个非常有效的解决方案,因为它只给我一天的性能结果。为了获得7天的性能结果,我必须调整两个过滤器7次,运行该过程并手动记录准确性结果。
我觉得应该有更好的方法来做这件事。
谢谢
我想知道是否有一种方法来实现这在RM?目前,我将数据过滤为“20121-05-03之前的新闻”和“20121-05-03发布的新闻”,并将这两个流分别馈送给训练流和未标记流。
你可以想象,这不是一个非常有效的解决方案,因为它只给我一天的性能结果。为了获得7天的性能结果,我必须调整两个过滤器7次,运行该过程并手动记录准确性结果。
我觉得应该有更好的方法来做这件事。
谢谢
0
答案
你的流程看起来是正确的。您正在干净地过滤训练和验证数据。
熟悉RapidMiner中的循环和宏。https://academy.www.turtlecreekpls.com/catalog?query=loop
在你想要处理的7天内循环将使你的处理过程做它应该做的事情。
问候,
Balazs
我最近找到了滑动窗口验证操作符。
你认为这个操作符能满足我的需求吗,还是我应该创建一个自定义循环?
如果你只是想验证你的预测过程,滑动窗口验证是你的选择。
如果您需要一个用于未来预测的可重用流程,则必须手动构建它。
问候,
Balazs