具有可选功能的预测

AustinT · 2018年4月

这是一个让我“嗯”的问题/场景……我面临一个回归问题，我的数据集有属性为{a, B, C}的示例，而其他示例有属性为{a, B, C, D, E}的示例。当我考虑用不同的方法对数据建模以最终预测目标变量时，我很挠头。

我在基本层面上理解，我的回归公式不能是Y = f(a,B,C,D,E)，除非我有办法为那些没有这些特征的例子推导/默认值“D”和“E”。我的思维过程是“当我的模型有更多的信息时，它可以做出更准确的预测”，这是我想用这个数据来证明的假设。

有人有开发某些属性为“可选”的模型的经验吗?

Telcontar120 · 2018年4月

这里有几种不同的方法:

在所有属性上构建一个模型，并将其限制为只填充了所有属性的记录
构建一个包含所有属性的模型，并使用缺失值替换(这里有多个选项)来替换缺失的任何属性
仅使用所有示例共有的较小的属性集构建模型
构建两个独立的模型，一个用于较大的属性数据集，另一个用于较小的属性数据集

这些方法中的一种可能并不总是比其他方法好，因为这取决于您的应用程序和用例。他们每个人都有不同的优点和缺点。选项1通常会给出最好的模型，但它不能给所有的例子打分，而选项3会给出最广泛适用的模型，但它不会那么强大。

我对最后一个选项有很好的经验，它本质上是一个分段记分卡，尽管它需要每种类型的足够的例子来单独训练一个好的模型。如果有额外属性缺失的原因，并且可以用来分配合理的替换值，那么第二种选择也是一种很好的可能性。

AustinT · 2018年4月

谢谢你的建议，布莱恩。当我停下来仔细想想的时候，这就很有意义了。本质上，存在于数据子集中的属性/特征是有充分理由的(即设备的配置是这样的，它为我们提供了额外的数据点)。所以为其他子集甚至不是一个有效的前提。谢谢你帮我理清思路。这可能是我需要设定的期望水平，因为现在我们正在考虑几种可能基于设备配置的模型。从逻辑上讲，这是有道理的，但还有管理方面的问题，等等。

谢谢!

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

具有可选功能的预测

最佳答案

答案