特征权重vs域输入。
你好,
当我尝试使用“解释预测”时,它会产生不同的特征权重,这些特征权重也会随着算法的选择而变化。
例如:选择kNN -将选择特征A,特征B,特征C,特征D作为前3个。
1.但是我的专业知识告诉我D是最重要的一个。在这种情况下
选择kNN(其中特征D不重要)即使在训练和测试期间提供良好的准确性,也能完成工作吗?
2.或者在上面的场景中——我应该用SVM模型吗——它自然地把特征D作为最重要的属性?在训练过程中,对于给定的数据集,SVM的性能不如kNN
和测试。
我能弄清楚如何处理……吗?特别是当解释预测算子给出的权重排序与域输入比较时存在冲突时。谢谢。
问候
thiru
当我尝试使用“解释预测”时,它会产生不同的特征权重,这些特征权重也会随着算法的选择而变化。
例如:选择kNN -将选择特征A,特征B,特征C,特征D作为前3个。
1.但是我的专业知识告诉我D是最重要的一个。在这种情况下
选择kNN(其中特征D不重要)即使在训练和测试期间提供良好的准确性,也能完成工作吗?
2.或者在上面的场景中——我应该用SVM模型吗——它自然地把特征D作为最重要的属性?在训练过程中,对于给定的数据集,SVM的性能不如kNN
和测试。
我能弄清楚如何处理……吗?特别是当解释预测算子给出的权重排序与域输入比较时存在冲突时。谢谢。
问候
thiru
0
答案
预测和特征加权是诊断工具,模型也是实现目标的工具。不要高估解释预测和特征权重的精度,复杂的模型将具有复杂的属性之间的相互作用。
同时获得所有特征而不丢失值是容易还是困难?你对准确性感兴趣还是对可解释的模型感兴趣?你的特质会不会有歧视他人的可能?等等......
有时我们的领域知识背叛了我们,或者它太简单了。这就是我们使用机器学习的原因。A, B, C可能包含额外的知识,它们有助于改进模型,而不仅仅是看D。
所有这些都说明:使用最能解决问题的模型(经过适当的验证),无论问题是如何定义的。
问候,
Balazs
德国多特蒙德