具有可选功能的预测
这是一个让我“嗯”的问题/场景……我面临一个回归问题,我的数据集有属性为{a, B, C}的示例,而其他示例有属性为{a, B, C, D, E}的示例。当我考虑用不同的方法对数据建模以最终预测目标变量时,我很挠头。
我在基本层面上理解,我的回归公式不能是Y = f(a,B,C,D,E),除非我有办法为那些没有这些特征的例子推导/默认值“D”和“E”。我的思维过程是“当我的模型有更多的信息时,它可以做出更准确的预测”,这是我想用这个数据来证明的假设。
有人有开发某些属性为“可选”的模型的经验吗?
标记:
0
最佳答案
-
Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
这里有几种不同的方法:
- 在所有属性上构建一个模型,并将其限制为只填充了所有属性的记录
- 构建一个包含所有属性的模型,并使用缺失值替换(这里有多个选项)来替换缺失的任何属性
- 仅使用所有示例共有的较小的属性集构建模型
- 构建两个独立的模型,一个用于较大的属性数据集,另一个用于较小的属性数据集
这些方法中的一种可能并不总是比其他方法好,因为这取决于您的应用程序和用例。他们每个人都有不同的优点和缺点。选项1通常会给出最好的模型,但它不能给所有的例子打分,而选项3会给出最广泛适用的模型,但它不会那么强大。
我对最后一个选项有很好的经验,它本质上是一个分段记分卡,尽管它需要每种类型的足够的例子来单独训练一个好的模型。如果有额外属性缺失的原因,并且可以用来分配合理的替换值,那么第二种选择也是一种很好的可能性。
0
答案
谢谢你的建议,布莱恩。当我停下来仔细想想的时候,这就很有意义了。本质上,存在于数据子集中的属性/特征是有充分理由的(即设备的配置是这样的,它为我们提供了额外的数据点)。所以为其他子集甚至不是一个有效的前提。谢谢你帮我理清思路。这可能是我需要设定的期望水平,因为现在我们正在考虑几种可能基于设备配置的模型。从逻辑上讲,这是有道理的,但还有管理方面的问题,等等。
谢谢!