告诉k-NN(可能还有其他模型)忽略日期超过未标记记录时间的训练数据

The01GeekThe01Geek 成员职位:2新手
我有一个大的新闻记录数据库和它们发布的时间戳。我目前正在尝试使用k-NN,通过将新闻与过去发生的类似案例进行比较,来对公司的股票行为进行分类。当然,我不希望这个模型使用任何在有问题的新闻之后发布的新闻,因为这不是一个现实的方法。

我想知道是否有一种方法来实现这在RM?目前,我将数据过滤为“20121-05-03之前的新闻”和“20121-05-03发布的新闻”,并将这两个流分别馈送给训练流和未标记流。



你可以想象,这不是一个非常有效的解决方案,因为它只给我一天的性能结果。为了获得7天的性能结果,我必须调整两个过滤器7次,运行该过程并手动记录准确性结果。

我觉得应该有更好的方法来做这件事。


谢谢
标记:

答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:876独角兽
    你好,

    你的流程看起来是正确的。您正在干净地过滤训练和验证数据。

    熟悉RapidMiner中的循环和宏。https://academy.www.turtlecreekpls.com/catalog?query=loop

    在你想要处理的7天内循环将使你的处理过程做它应该做的事情。

    问候,
    Balazs
    The01Geek
  • The01GeekThe01Geek 成员职位:2新手
    谢谢BalazsBarany。
    我最近找到了滑动窗口验证操作符。

    你认为这个操作符能满足我的需求吗,还是我应该创建一个自定义循环?
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:876独角兽
    @The01Geek

    如果你只是想验证你的预测过程,滑动窗口验证是你的选择。

    如果您需要一个用于未来预测的可重用流程,则必须手动构建它。

    问候,
    Balazs
登录注册置评。