预测模型+结果分析
最佳答案
-
hbajpai 成员职位:102独角兽好的,我认为您可以在导入数据后使用以下步骤。
- 工程特性
在此步骤中,您可以捕获季节,利用'Year'变量生成常用疫苗和药物的名义属性。如果你想预测地点风险区域,你可能需要考虑基于地区/区域的病例汇总。
相反,对于预测未来的病人,你的潜在目标是什么。例如,根据季节和地区预测未来的患者/预测特定月份/季度/年的整体未来患者。 - 降维(PCA)可用一个或两个降维(PCA)代替过度相关的变量。您应该存储预处理模型,以便稍后对模型推理重新评分新数据时使用。但是,要确保如果您对关键属性使用PCA,那么在可解释性阶段可能很难理解它们对模型的影响。
- 聚类可以用来替换缺失的值。这可以通过使用impute missing values操作符来实现。你可以在子过程中使用k-NN和其他算法。
- 线性回归可以用广义线性模型(GLM)来实现。您还可以使用优化参数(Grid)来确定最佳正则化参数alpha。最后,您可以使用解释预测和模型模拟器来了解模型对各种属性的依赖关系。
最好的
Harshit6 - 工程特性
答案
你分享的结果显示了线性回归模型,它显示了变量的系数以及变量的重要性。既然你有登革热的数据,你是否试图根据时间序列预测来预测有多少人会因此而患病?我无法理解你关于降维和聚类的动机。你能详细说明一下吗?
此外,从你的问题陈述来看,季节性和天气模式方面的特征工程将是开发预测模型的重要步骤。
Harshit