算法是“作弊”，从其他实例复制正确的标签

sebasvog · 2020年11月

大家好！

我的模型有点问题。它应该根据一些给定的属性预测每月的产品数量。
我的(训练)数据由过去一个月的60个数据组成。数据集中的每个实例代表一天。两个给定的属性是“月”和“年”。标签是月底的产品数量。因此，在我的例子中，特定月份的每个实例(~ 30天/月—> ~ 30个实例)都具有相同的标签。现在，当我训练算法(通过交叉验证/深度学习)并查看性能度量(relative_error)时，似乎算法查看属性“月”和“年”，并采用来自另一行的标签值，该行具有相同的月和年作为他对该实例的预测。

我希望你能按照我的描述去做。如果你有不懂的地方尽管问。
如果有人能告诉我我的猜测是否正确，以及我如何避免这个错误，我将非常感激。

现在我试图通过将月份作为属性来避免这种情况，而不是月份+年。

谢谢你的回复，
塞巴斯蒂安。

MartinLiebig · 2020年11月

你好,

我建议使用滑动窗口验证，而不是交叉验证。这为您提供了对性能的合理估计。

最好的

马丁

sebasvog · 2020年11月

嗨,马丁,

非常感谢您的回答。我想这个验证方法可以帮助我评估我当前模型的性能!

然而，我认为我必须用修改过的数据集(没有年和月作为属性——>可能只有月)创建一个新进程，以便为我的问题提供有效的解决方案。

问候,
塞巴斯蒂安。

MartinLiebig · 2020年11月

你好,

或者，我们改变预处理的方式，让你得到一个月或一个季度。这可能会有所帮助。

BR,

马丁

sebasvog · 2020年11月

你好,

我尝试在我的模型上应用“滑动窗口验证”，但似乎这种类型的验证只适用于时间序列数据。
我知道我的数据是“某种”时间序列数据，但我正试图通过使用神经网络回归(深度学习)来解决这个问题。
我不能使用滑动窗口验证，对吧?

我尝试在我的数据(周期=日，周期=月)上应用时间序列模型(ARIMA)，但结果非常糟糕(怀疑我没有足够的历史数据，只有60个月)。

问候,
塞巴斯蒂安。

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

算法是“作弊”，从其他实例复制正确的标签

答案