功能 |
失踪(%) |
无限(%) |
ID-ness (%) |
稳定(%) |
有效(%) |
数(男性) |
数(女) |
百分比(男性) |
百分比(女) |
性 |
0 |
0 |
0.25 |
51.38 |
48.37 |
409 |
387 |
51.4 |
48.6 |
汽车模型和特征权重和排名的变化
问题:
如果一个功能的权重根据所使用的模型而发生巨大变化,那么5个最重要功能的排名在模型之间就会有很大的变化。因为这些特征有一个与患者群体相关的背景,而且我们认为从时间开始到急诊室非常重要,所以我们真的在寻找一些更同质的结果。
接下来我想部署和评分(20%)最有弹性的模型。由于我的笔记本内存太低,我被困在了评分的最后一部分。
数据集(附CSV格式)
用于模型开发的数据来自比利时根克市Ziekenhuis Oost-Limburg的当地电子健康记录系统(HIX(6.1版本HF96),荷兰阿姆斯特丹Chipsoft公司)。在数据库查询后,数据被去识别,导致2017年1月至2019年2月期间入院的患者数据具有高度提示中风的症状(n=796)。
我们重点关注的功能有:
性别、年龄、血糖、署, Pre-Stroke夫人, Time Onset To ER,致密动脉标志,糖尿病,缺血早期症状,急性中风史,高胆固醇血症,肥胖,结局悲惨,吸烟
特征整个数据集的特征
功能 |
失踪(%) |
无限(%) |
ID-ness (%) |
稳定(%) |
有效(%) |
最低 |
最大 |
平均 |
SD |
年龄(年) |
0 |
0 |
66 |
1.76 |
91.58 |
25.20 |
97.61 |
73.23 |
13.23 |
血糖(mg / dl) |
5.03 |
0 |
20.60 |
2.25 |
72.12 |
45 |
413 |
128.53 |
42.81 |
署 |
3.27 |
0 |
3.89 |
12.47 |
80.37 |
0 |
30. |
7.73 |
7.40 |
Pre-Stroke夫人 |
4.77 |
0 |
0.75 |
51.45 |
43.02 |
0 |
5 |
0.94 |
1.24 |
Time Onset To ER (min) |
32.04 |
0 |
34.30 |
3.88 |
29.79 |
0 |
36202 |
272.4 |
1580.35 |
功能 |
失踪(%) |
无限(%) |
ID-ness (%) |
稳定(%) |
有效(%) |
计数(是的) |
计数(没有) |
百分比(是的) |
比例(不) |
致密动脉标志 |
15日,70年 |
0 |
0.25 |
62.44 |
21.60 |
419 |
252 |
62.4 |
37.5 |
糖尿病 |
0 |
0 |
0.25 |
75.38 |
24.37 |
196 |
600 |
24.6 |
75.4 |
缺血的早期迹象 |
10.43 |
0 |
0.25 |
77.84 |
11.48 |
158 |
555 |
22.2 |
77.8 |
急性中风病史 |
0 |
0 |
0.25 |
55.28 |
44.47 |
356 |
440 |
44.7 |
55.3 |
高胆固醇血症 |
13.32 |
0 |
0.25 |
55.36 |
31.07 |
308 |
382 |
44.6 |
55.4 |
高血压 |
11.93 |
0 |
0.25 |
68.05 |
19.77 |
477 |
224 |
68.0 |
32.0 |
肥胖 |
27.51 |
0 |
0.25 |
74.35 |
0 |
148 |
429 |
25.7 |
74.3 |
悲惨的结果 |
0.75 |
0 |
0.25 |
84.30 |
14.69 |
124 |
666 |
15.70 |
84.30 |
吸烟 |
21.86 |
0 |
0.25 |
63.83 |
14.06 |
225 |
397 |
63.8 |
36.2 |
脑卒中的解剖定位(患者人数,患者比例)(缺失:8.79%;无限:0%;ID-ness: 0.5%;稳定性:45.32%;有效:45.39%)
远端 |
329 |
0.45 |
前 |
236 |
0.33 |
没有局部贫血 |
99 |
0.14 |
后 |
62 |
0.09 |
治疗((患者人数,患者比例)(缺失:0%;无限:0%;ID-ness: 0.5%;稳定性:65.20%;有效:34.30%)
保守的 |
519 |
0.65 |
溶栓 |
127 |
0.16 |
血栓切除术 |
89 |
0.11 |
溶栓和血栓切除术 |
61 |
0.08 |
结果(标签)
急性缺血性脑卒中入院患者的功能预后由3个月改良Rankin评分(mRS)评分值决定。将mRS评分离散到不同的箱子中,生成一个标签:
mRS得分为5、6分的人被贴上了“痛苦”的标签
mRS得分为0、1或2的被标记为:“有利”
mRS得分为3、4分被标记为:“中等”。
我们的兴趣主要集中在分别用改良Rankin量表(Modified Rankin Scales) 0 - 2和5,6量化结果良好和糟糕的患者。
分析是分类:非惨带兴趣惨类
模型 |
分类错误 |
标准偏差 |
收益 |
总时间 |
训练时间(1000排) |
评分时间(1000行) |
朴素贝叶斯 |
0, 2 |
0,0 |
0,0 |
46301年0 |
253年,2 |
4224年,7 |
广义线性模型 |
0 1 |
0,0 |
10日0 |
55190年0 |
341年,8 |
2389年,2 |
逻辑回归 |
0 1 |
0,0 |
12日0 |
41313年0 |
183年,5 |
2632年,9 |
快大利润 |
0, 2 |
0 1 |
0,0 |
31927年0 |
349年,4 |
1651年,9 |
深度学习 |
0, 2 |
0,0 |
2、0 |
38505年0 |
1941年,8 |
1259年,5 |
决策树 |
0, 2 |
0,0 |
0,0 |
25352年0 |
108年,9 |
1107年,6 |
随机森林 |
0 1 |
0,0 |
12日0 |
89713年0 |
289年,9 |
1955年,7 |
梯度增加了树木 |
0, 2 |
0,0 |
0,0 |
130128年0 |
364年,6 |
1145年,6 |
支持向量机 |
0, 2 |
0,0 |
0,0 |
136227年0 |
1191年,1 |
4604年,4 |