并行化和CPU优化

sgenzer · 2016年11月

随着RM 7.3在交叉验证性能上的巨大改进，我想建议RM在以下方面并行化和/或优化CPU性能:

1) k-means集群(在6核机器上，我仍然只看到使用1核)

2)决策树

3)从数据中处理文档(文本处理扩展)

4)循环(所有的变化)

分支和选择子流程

斯科特

zprekopcsak · 2016年11月

你好,斯科特,

很好的建议，谢谢。我已经可以确认，在我们说话的时候，其中一些正在酝酿之中。

让我来澄清几个问题:

2)决策树(和随机森林)自RapidMiner 6.2以来已经有了并行实现。根据我们的测试，它与一些最快的树学习器实现相当。你能说出你觉得执行速度不是很好的具体情况(例如许多名义属性)吗?

3)从数据中处理文档:随着几周前发布的文本处理扩展版本7.2.1，该操作符的速度得到了显著提高。你有机会测试一下吗?你还觉得它太慢了吗?

谢谢,Zoltan

sgenzer · 2016年11月

早上好，佐尔坦。

关于决策树，我可能说得太早了——我最近还没有对它进行基准测试，看看它是否确实使用了多核。是的，我通常使用带有大量名义属性的决策树。

至于来自数据的过程文件，这是我昨天所做的，是的，我可以确认它只使用1个核心。它是缓慢的。我看着它旋转了很长时间，同时看着我漂亮的6核处理器没有得到充分利用。

谢谢!

斯科特

sgenzer · 2016年11月

决策树确实提高了CPU使用率。

斯科特

截屏2016-11-14 10:19.26 AM.png 截屏2016-11-14 10:18.27 AM.png

@sgenzer写道:
随着RM 7.3在交叉验证性能上的巨大改进，我想建议RM在以下方面并行化和/或优化CPU性能:

1) k-means集群(在6核机器上，我仍然只看到使用1核)

2)决策树

3)从数据中处理文档(文本处理扩展)

4)循环(所有的变化)

分支和选择子流程

斯科特

sgenzer · 2017年10月

sgenzer · 2017年11月

快速链接