特征权重vs域输入。

ThiruThiru 成员职位:One hundred.大师
你好,

当我尝试使用“解释预测”时,它会产生不同的特征权重,这些特征权重也会随着算法的选择而变化。

例如:选择kNN -将选择特征A,特征B,特征C,特征D作为前3个。

1.但是我的专业知识告诉我D是最重要的一个。在这种情况下
选择kNN(其中特征D不重要)即使在训练和测试期间提供良好的准确性,也能完成工作吗?

2.或者在上面的场景中——我应该用SVM模型吗——它自然地把特征D作为最重要的属性?在训练过程中,对于给定的数据集,SVM的性能不如kNN
和测试。

我能弄清楚如何处理……吗?特别是当解释预测算子给出的权重排序与域输入比较时存在冲突时。谢谢。


问候
thiru









答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:913独角兽
    嗨!

    预测和特征加权是诊断工具,模型也是实现目标的工具。不要高估解释预测和特征权重的精度,复杂的模型将具有复杂的属性之间的相互作用。

    同时获得所有特征而不丢失值是容易还是困难?你对准确性感兴趣还是对可解释的模型感兴趣?你的特质会不会有歧视他人的可能?等等......

    有时我们的领域知识背叛了我们,或者它太简单了。这就是我们使用机器学习的原因。A, B, C可能包含额外的知识,它们有助于改进模型,而不仅仅是看D。

    所有这些都说明:使用最能解决问题的模型(经过适当的验证),无论问题是如何定义的。

    问候,
    Balazs
    Thiru
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    你好,
    还要记住,Explain Prediction解释的是预测,而不是标签。所以它可以帮助你理解“模型对世界的看法”。如果这个模型首先是对世界的一个糟糕的近似,它就没有帮助。

    人们也应该认真思考解释预测的结果意味着什么。

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Thiru
登录注册置评。