算法是“作弊”,从其他实例复制正确的标签
大家好!
我的模型有点问题。它应该根据一些给定的属性预测每月的产品数量。
我的(训练)数据由过去一个月的60个数据组成。数据集中的每个实例代表一天。两个给定的属性是“月”和“年”。标签是月底的产品数量。因此,在我的例子中,特定月份的每个实例(~ 30天/月—> ~ 30个实例)都具有相同的标签。现在,当我训练算法(通过交叉验证/深度学习)并查看性能度量(relative_error)时,似乎算法查看属性“月”和“年”,并采用来自另一行的标签值,该行具有相同的月和年作为他对该实例的预测。
我希望你能按照我的描述去做。如果你有不懂的地方尽管问。
如果有人能告诉我我的猜测是否正确,以及我如何避免这个错误,我将非常感激。
现在我试图通过将月份作为属性来避免这种情况,而不是月份+年。
谢谢你的回复,
塞巴斯蒂安。
我的模型有点问题。它应该根据一些给定的属性预测每月的产品数量。
我的(训练)数据由过去一个月的60个数据组成。数据集中的每个实例代表一天。两个给定的属性是“月”和“年”。标签是月底的产品数量。因此,在我的例子中,特定月份的每个实例(~ 30天/月—> ~ 30个实例)都具有相同的标签。现在,当我训练算法(通过交叉验证/深度学习)并查看性能度量(relative_error)时,似乎算法查看属性“月”和“年”,并采用来自另一行的标签值,该行具有相同的月和年作为他对该实例的预测。
我希望你能按照我的描述去做。如果你有不懂的地方尽管问。
如果有人能告诉我我的猜测是否正确,以及我如何避免这个错误,我将非常感激。
现在我试图通过将月份作为属性来避免这种情况,而不是月份+年。
谢谢你的回复,
塞巴斯蒂安。
0
答案
德国多特蒙德
非常感谢您的回答。我想这个验证方法可以帮助我评估我当前模型的性能!
然而,我认为我必须用修改过的数据集(没有年和月作为属性——>可能只有月)创建一个新进程,以便为我的问题提供有效的解决方案。
问候,
塞巴斯蒂安。
德国多特蒙德
我尝试在我的模型上应用“滑动窗口验证”,但似乎这种类型的验证只适用于时间序列数据。
我知道我的数据是“某种”时间序列数据,但我正试图通过使用神经网络回归(深度学习)来解决这个问题。
我不能使用滑动窗口验证,对吧?
我尝试在我的数据(周期=日,周期=月)上应用时间序列模型(ARIMA),但结果非常糟糕(怀疑我没有足够的历史数据,只有60个月)。
问候,
塞巴斯蒂安。