具有可选功能的预测

AustinTAustinT RapidMiner注册分析师、会员职位:12因素二世
2018年12月编辑 帮助

这是一个让我“嗯”的问题/场景……我面临一个回归问题,我的数据集有属性为{a, B, C}的示例,而其他示例有属性为{a, B, C, D, E}的示例。当我考虑用不同的方法对数据建模以最终预测目标变量时,我很挠头。

我在基本层面上理解,我的回归公式不能是Y = f(a,B,C,D,E),除非我有办法为那些没有这些特征的例子推导/默认值“D”和“E”。我的思维过程是“当我的模型有更多的信息时,它可以做出更准确的预测”,这是我想用这个数据来证明的假设。

有人有开发某些属性为“可选”的模型的经验吗?

标记:

最佳答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    解决方案接受

    这里有几种不同的方法:

    1. 在所有属性上构建一个模型,并将其限制为只填充了所有属性的记录
    2. 构建一个包含所有属性的模型,并使用缺失值替换(这里有多个选项)来替换缺失的任何属性
    3. 仅使用所有示例共有的较小的属性集构建模型
    4. 构建两个独立的模型,一个用于较大的属性数据集,另一个用于较小的属性数据集

    这些方法中的一种可能并不总是比其他方法好,因为这取决于您的应用程序和用例。他们每个人都有不同的优点和缺点。选项1通常会给出最好的模型,但它不能给所有的例子打分,而选项3会给出最广泛适用的模型,但它不会那么强大。

    我对最后一个选项有很好的经验,它本质上是一个分段记分卡,尽管它需要每种类型的足够的例子来单独训练一个好的模型。如果有额外属性缺失的原因,并且可以用来分配合理的替换值,那么第二种选择也是一种很好的可能性。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询

答案

  • AustinTAustinT RapidMiner注册分析师、会员职位:12因素二世

    谢谢你的建议,布莱恩。当我停下来仔细想想的时候,这就很有意义了。本质上,存在于数据子集中的属性/特征是有充分理由的(即设备的配置是这样的,它为我们提供了额外的数据点)。所以为其他子集甚至不是一个有效的前提。谢谢你帮我理清思路。这可能是我需要设定的期望水平,因为现在我们正在考虑几种可能基于设备配置的模型。从逻辑上讲,这是有道理的,但还有管理方面的问题,等等。

    谢谢!

登录注册置评。