算法是“作弊”,从其他实例复制正确的标签

sebasvogsebasvog 成员职位:7新手
大家好!

我的模型有点问题。它应该根据一些给定的属性预测每月的产品数量。
我的(训练)数据由过去一个月的60个数据组成。数据集中的每个实例代表一天。两个给定的属性是“月”和“年”。标签是月底的产品数量。因此,在我的例子中,特定月份的每个实例(~ 30天/月—> ~ 30个实例)都具有相同的标签。现在,当我训练算法(通过交叉验证/深度学习)并查看性能度量(relative_error)时,似乎算法查看属性“月”和“年”,并采用来自另一行的标签值,该行具有相同的月和年作为他对该实例的预测。

我希望你能按照我的描述去做。如果你有不懂的地方尽管问。
如果有人能告诉我我的猜测是否正确,以及我如何避免这个错误,我将非常感激。

现在我试图通过将月份作为属性来避免这种情况,而不是月份+年。

谢谢你的回复,
塞巴斯蒂安。

答案

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    你好,
    我建议使用滑动窗口验证,而不是交叉验证。这为您提供了对性能的合理估计。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    sebasvog
  • sebasvogsebasvog 成员职位:7新手
    嗨,马丁,

    非常感谢您的回答。我想这个验证方法可以帮助我评估我当前模型的性能!笑脸:

    然而,我认为我必须用修改过的数据集(没有年和月作为属性——>可能只有月)创建一个新进程,以便为我的问题提供有效的解决方案。

    问候,
    塞巴斯蒂安。

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    你好,
    或者,我们改变预处理的方式,让你得到一个月或一个季度。这可能会有所帮助。

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
  • sebasvogsebasvog 成员职位:7新手
    你好,

    我尝试在我的模型上应用“滑动窗口验证”,但似乎这种类型的验证只适用于时间序列数据。
    我知道我的数据是“某种”时间序列数据,但我正试图通过使用神经网络回归(深度学习)来解决这个问题。
    我不能使用滑动窗口验证,对吧?

    我尝试在我的数据(周期=日,周期=月)上应用时间序列模型(ARIMA),但结果非常糟糕(怀疑我没有足够的历史数据,只有60个月)。

    问候,
    塞巴斯蒂安。
登录注册置评。