汽车模型和特征权重和排名的变化

DocMusherDocMusher 成员职位:333独角兽
编辑2020年7月 帮助

问题:

  1. 如果一个功能的权重根据所使用的模型而发生巨大变化,那么5个最重要功能的排名在模型之间就会有很大的变化。因为这些特征有一个与患者群体相关的背景,而且我们认为从时间开始到急诊室非常重要,所以我们真的在寻找一些更同质的结果。

  2. 接下来我想部署和评分(20%)最有弹性的模型。由于我的笔记本内存太低,我被困在了评分的最后一部分。

有没有RM的朋友可以看一下我的数据,在部署后给我看一些评分结果?

数据集(附CSV格式)

用于模型开发的数据来自比利时根克市Ziekenhuis Oost-Limburg的当地电子健康记录系统(HIX(6.1版本HF96),荷兰阿姆斯特丹Chipsoft公司)。在数据库查询后,数据被去识别,导致2017年1月至2019年2月期间入院的患者数据具有高度提示中风的症状(n=796)。


我们重点关注的功能有:

性别、年龄、血糖、, Pre-Stroke夫人, Time Onset To ER,致密动脉标志,糖尿病,缺血早期症状,急性中风史,高胆固醇血症,肥胖,结局悲惨,吸烟


特征整个数据集的特征

功能

失踪(%)

无限(%)

ID-ness (%)

稳定(%)

有效(%)

数(男性)

数(女)

百分比(男性)

百分比(女)

0

0

0.25

51.38

48.37

409

387

51.4

48.6



功能

失踪(%)

无限(%)

ID-ness (%)

稳定(%)

有效(%)

最低

最大

平均

SD

年龄(年)

0

0

66

1.76

91.58

25.20

97.61

73.23

13.23

血糖(mg / dl)

5.03

0

20.60

2.25

72.12

45

413

128.53

42.81

3.27

0

3.89

12.47

80.37

0

30.

7.73

7.40

Pre-Stroke夫人

4.77

0

0.75

51.45

43.02

0

5

0.94

1.24

Time Onset To ER (min)

32.04

0

34.30

3.88

29.79

0

36202

272.4

1580.35

功能

失踪(%)

无限(%)

ID-ness (%)

稳定(%)

有效(%)

计数(是的)

计数(没有)

百分比(是的)

比例(不)

致密动脉标志

15日,70年

0

0.25

62.44

21.60

419

252

62.4

37.5

糖尿病

0

0

0.25

75.38

24.37

196

600

24.6

75.4

缺血的早期迹象

10.43

0

0.25

77.84

11.48

158

555

22.2

77.8

急性中风病史

0

0

0.25

55.28

44.47

356

440

44.7

55.3

高胆固醇血症

13.32

0

0.25

55.36

31.07

308

382

44.6

55.4

高血压

11.93

0

0.25

68.05

19.77

477

224

68.0

32.0

肥胖

27.51

0

0.25

74.35

0

148

429

25.7

74.3



悲惨的结果

0.75

0

0.25

84.30

14.69

124

666

15.70

84.30

吸烟

21.86

0

0.25

63.83

14.06

225

397

63.8

36.2


脑卒中的解剖定位(患者人数,患者比例)(缺失:8.79%;无限:0%;ID-ness: 0.5%;稳定性:45.32%;有效:45.39%)

远端

329

0.45

236

0.33

没有局部贫血

99

0.14

62

0.09




治疗((患者人数,患者比例)(缺失:0%;无限:0%;ID-ness: 0.5%;稳定性:65.20%;有效:34.30%)

保守的

519

0.65

溶栓

127

0.16

血栓切除术

89

0.11

溶栓和血栓切除术

61

0.08


结果(标签)

急性缺血性脑卒中入院患者的功能预后由3个月改良Rankin评分(mRS)评分值决定。将mRS评分离散到不同的箱子中,生成一个标签:

mRS得分为5、6分的人被贴上了“痛苦”的标签

mRS得分为0、1或2的被标记为:“有利”

mRS得分为3、4分被标记为:“中等”。

我们的兴趣主要集中在分别用改良Rankin量表(Modified Rankin Scales) 0 - 2和5,6量化结果良好和糟糕的患者。

分析是分类:非惨带兴趣惨类






模型

分类错误

标准偏差

收益

总时间

训练时间(1000排)

评分时间(1000行)

朴素贝叶斯

0, 2

0,0

0,0

46301年0

253年,2

4224年,7

广义线性模型

0 1

0,0

10日0

55190年0

341年,8

2389年,2

逻辑回归

0 1

0,0

12日0

41313年0

183年,5

2632年,9

快大利润

0, 2

0 1

0,0

31927年0

349年,4

1651年,9

深度学习

0, 2

0,0

2、0

38505年0

1941年,8

1259年,5

决策树

0, 2

0,0

0,0

25352年0

108年,9

1107年,6

随机森林

0 1

0,0

12日0

89713年0

289年,9

1955年,7

梯度增加了树木

0, 2

0,0

0,0

130128年0

364年,6

1145年,6

支持向量机

0, 2

0,0

0,0

136227年0

1191年,1

4604年,4


Stroke_ER.csv 78.3 k
    登录注册置评。