旧世界计算发布的高级报告扩展
Old World Computing发布的高级报告扩展的想法是使用RapidMiner的功能来自动执行任何常规报告任务,从而生成Excel表。有许多项目和数据科学部门只是淹没在这类请求中,在您能够进入数据科学真乐鱼平台进入正有趣的部分之前,就消耗了所有的资源。现在,即使您没有或不能使用tableau或qlik等真正的商业智能工具,您也可以从头开始创建一个几乎为零开销的报告。
这是怎么做到的呢?
步骤1:在Excel中创建模板
首先,我们创建一个虚拟表,并添加所有所需的布局组件,图表,文本,当然还有数据区域。
我们可以使用任何格式,图表类型或我们喜欢的条件着色,包括漂亮的火花线。只有一件事是重要的:我们需要为插入数据预留空间。稍后将发生的是,我们用RapidMiner的数据覆盖表的部分内容。因此,如果我们有三个以上的员工,我们将需要在表格和图表之间留出更多的空间,或者只是将数据放入单独的工作表中并在图表中引用这些数据。但如果你习惯了Excel报表,你可能知道所有这些技巧……
插入一些虚拟值,这样您就可以看到实际的图表。
别忘了保存文件。我们以后会需要的。
步骤2:在RapidMiner中创建一个进程来加载数据
RapidMiner非常通用,可以将数据转换成你想要的形状。它可以读取和组合许多不同的格式和源,然后将数据聚合、连接、枢轴和处理成您需要的形状。
在右边,您可以看到一个流程,它将来自四个不同来源的数据与多个连接和预处理步骤相结合以匹配数据。这样的流程可以为我们提供我们想要放入Worktime表中的数据。
当然,它可以更简单,只包含一个SQL查询,也可以更复杂,包括调用web服务,大数据和hadoop上的分析,一些机器学习或其他东西。诀窍在于,我们可以利用RapidMiner的全部灵活性来获取我们想要放入Excel表格中的数据。
步骤3:打开报告
一旦我们有了所需格式的数据,我们就添加一个公开报告(Excel)扩展的运算符。你可以在运算树的右边看到它。我们需要将操作符指向两个文件:在步骤1中创建并保存的模板文件。您可以使用该参数表单模板文件或者是tem输入端口。第二个文件可以指定为目标文件参数或使用焦油输出端口。
为什么文件有端口?因为它允许您在稍后想要在进程中对它们进行处理的场景中方便地处理文件。您甚至可以在RapidMiner进程中创建一个模板文件,或者不那么花哨,更现实:将文件存储在RapidMiner服务器的存储库中,以便在许多用户之间共享。如果您想要压缩结果或在RapidMiner服务器Web服务或Web应用程序中作为Web服务结果返回它,输出文件端口是最有用的。
我们想要插入到Excel文件中的任何数据,都需要转发到的输入端口公开报告(Excel)操作符。别担心,如果你连接了最后一个输入端口,总是会有另一个输入端口。我们将使用内部子进程中传递给这些端口的数据来进行实际的插入。
步骤4:插入表格数据
如果我们进入了内部的过程公开报告(Excel),我们可以添加写入数据输入(Excel)操作符将示例集插入到excel中。在右边的截图中,我们已经使用了第一个ExampleSet。操作符允许选择使用哪些属性以及将其放置在何处。因此,您可以指定表它将通过下标插入。然后指向a填充范围.通过指定区域的左上单元格,范围可以是开放结束的;如果后面跟着冒号和右下单元格,则范围可以是关闭的。B2从第二列第二行开始。B2:D4允许填充2行2列。
对于步骤1中的小员工表,我们将其设置为B11:C13。除非我们选择适合范围,如果我们的数据不符合这个范围,该过程现在将失败。
我们将添加另一个这种类型的操作符来输出第二个表。
步骤5:插入数据
唯一缺少的是版本标签,以便人们在以后打开报告时知道该报告是关于什么的。
因此我们首先使用a生成的宏操作符从RapidMiner的核心功能来创建一个包含当前日期和时间的过程变量(或宏,他们称之为宏)。然后加上写单元格(Excel)操作员从高级报告扩展和连接端口。虽然不会有数据从生成的宏的运算符写单元格(Excel)运算符,连接确保生成的宏将首先执行,并在读取流程变量之前设置流程变量。
然后我们只需要指向写单元格(Excel)右边的运算符填补职位,在我们的例子中是F5。设置值和类型正确,我们可以开始了。
简短的日期通知:有无数不同的日期格式。如果要将日期写入excel,首先需要解析该值在RapidMiner中的日期格式。因此,如果您输入的值类似于2017-03-29 23:59:59,则应该在日期格式参数。写单元格(Excel)操作符。一旦它知道日期,它会自动将其转换为Excel模板表的正确格式,您在其中设置单元格格式。
一旦子流程完成,目标文件将被写入,您只需要将其发送给其他人并完成它。
我们建议从一开始就把所有事情都自动化。没有什么比“我只需要做一次”更重要的了。在90%的情况下,你需要做两次,然后自动化的额外开销就会得到回报。所以请随时下载扩展,订购许可证有什么问题就问吧。如果您还不相信,免费版本允许您访问完整的功能,并且只限制每个子进程中一个Write操作符的数量。
答案
这太棒了!我试过了,效果很好。一个小评论:看起来“激活许可按钮”没有得到正确的UI标签-我只得到了I18N键。否则,它就像一个咒语!非常感谢,英戈
嗨Ingo,
这确实是真的,但只有当你没有安装它与我们的手提钻扩展。显然没有人不喜欢它,所以简单地安装它,以及有一个标签。
好吧,开个玩笑,我们会在下一个版本中解决这个问题。谢谢你告诉我!
问候,
塞巴斯蒂安。
PS:高级报告扩展现在可以在市场!
嗨,塞巴斯蒂安,
你对RapidMiner用户的需求有很好的见解!
我很期待使用这个扩展。
问候,
Balazs
这是一个很棒的扩展,为RapidMiner带来了非常需要的报告自动化功能。我已经订购了我的许可证,迫不及待地开始使用这个扩展!
布莱恩
Lindon合资企业
乐鱼平台进入数据科学咨询由认证的RapidMiner专家
它是可能的,写一个IOObject集合到一个excel文件通过您的扩展,与结果,每个集合的例子集写在excel文件的一个表?
最好的问候,
曼努埃尔
嗨Manuel,
原则上,是的。唯一的要求是,这些表已经存在于模板文件中,因为扩展被认为是填写准备好的报表。
因此,如果你有一个excel模板文件,有12个表格,你的集合确实包含12个数据集,你可以简单地把写excel报表操作符放入循环集合操作符中,并将操作符的表格参数设置为“%{a}”。这个宏将被运算符的执行计数所取代,这意味着如果循环遍历集合,它将自动从1增加到12。
这有用吗?然而,我刚刚想到,如果你有一个灵活的表格数量,不想手动准备所有的表格,副本操作符也会很方便。你怎么看?
问候,
塞巴斯蒂安。
问候,
曼努埃尔