新用户之旅-第3部分
作者:nitin Mahesh
在我的上一篇文章中,我谈到了我是如何开始准备我的数据的,我使用的一些操作符,以及我遇到的一些问题。在这篇文章中,我将简要地谈谈我的结果和RapidMiner Studio中一些最有用的功能。
正如我上周提到的,我最终没有得到我想要的结果。即使在对我的数据运行不同的验证后,包括交叉验证。我一直得到大约0.519的AUC,与IBM Research的0.7611的结果相比,这真的很糟糕。
有几件小事需要考虑,我希望在进入数据集之前就已经开始了。我发现早一点报名参加研讨会会有帮助;这让我很好地回顾了如何导入、准备、建模和解释我的数据。老师很善于回答我的任何问题,而且研讨会是互动的,这对我很有帮助。我还学习了许多简单的生产力功能,比如如何禁用未使用的操作符,或者如何组织操作符,使它们不会满屏幕。我后来了解到的另一个功能是后台进程一个值得关注的特性,它为商业用户提供了在运行某些进程的同时处理其他进程的能力。
查看数据表有时也可能是一个挑战,如果您曾经在RapidMiner上运行过任何进程,您可能会遇到在关闭结果、应用程序或运行另一个进程(如下所示)后无法查看数据表的问题。
我花了一点时间才意识到,断点允许在进程中的任何操作符处查看表,这对于调试和查看对集合的更改非常有用。这可以通过右键单击操作符来完成,如下所示:
在做了大量的数据准备之后,我运行了上一篇文章中提到的一些模型和验证。这样做的问题是,我的数据准备过程非常密集,尽管我可以访问计算机的所有核心,但我在加载模型之前花了几个小时的时间。后来我了解到,有一种方法可以减少使用乘法和存储操作符的时间,这意味着我实际上是复制了我的数据准备(乘法),然后存储它(存储)。然后,我创建了一个新的流程,在这个流程中,我使用一个检索操作符来抓取数据准备。在我的新流程中,我可以运行交叉验证和模型,而不必重新加载所有的数据准备,这节省了我几个小时的等待时间。需要注意的一点是,每当我在数据准备中更改参数时,我都必须再次运行该过程,以便模型过程发生更改。
这让我想到了另一个需要记住的重要特性,日志。对于大型数据集,我运行的一些验证需要很长时间才能加载。我等了几个小时才得到一个错误,告诉我电脑内存不足。我终于在下面找到了原木视图然后显示面板,它会在过程中给我警告错误,这样我就不必浪费时间让过程最终结束。
RapidMiner Studio上的help选项卡是另一个有用的资源,它为数百个操作符中的任何一个提供了所有参数及其功能的良好概述。文档中包含了动手教程的链接,就在RapidMiner的教程的过程。RapidMiner的群体智慧功能是Studio中另一个有用的功能,非常适合寻找对该任务最有用的操作符,特别是当我不确定该使用什么操作符时。社区页面是下一个最好的资源,任何具体的问题,我有提到在过去的帖子或我可以自己的帖子。对我发布的任何问题的回应时间也很快!
在我的下一篇文章中,我将讨论我的最终结果以及我对数据准备所做的工作,以最终获得我想要的AUC。