复制Excel数据透视表功能
batstache611
成员职位:45大师
你好,
我经常使用excel对过程结果进行更深入的检查,例如根据属性检查集群组成,或者检查评分集上的GLM预测。例:不同城市的每一个集群的分布是什么城市属性,或者预测的潜在客户如何分布在各个业务中类别和地区属性,等等。我需要反复这样做很多次,直到我满意得分数据看起来和训练数据非常相似,或者我的聚类足够不同。作为一种习惯,我不会盲目地相信算法或计算机程序。
我在RM中使用了pivot操作符,但与excel不同的是,首先它没有给我数据透视表的行或列的总数。其次,我不知道如何去改变数字行/列总数的百分比或父行/列总数的百分比等,就像在excel中一样。我已经能够调整小数点后的有效数字,但仅此而已。此外,Pivot操作符中定义的索引属性不会传递给下一组操作符。例如,如果索引属性为集群,数据透视表包含属性cluster_0、cluster_1、2、3等。它们不会传递给下一个操作符——比如,生成聚合或选择属性等。我必须手动输入。
我在rapidminer内部寻找解决方案的原因是为了避免不得不来回做这么多,并不断地用不同的数据值一遍又一遍地重新创建相同的枢轴。如果我可以在RM中构建整个东西,我只需要每次点击play并伸展手臂并放松,直到它完成并将所有数据透视表和其他输出转储到结果窗口中。非常感谢。
0
答案
你好,
“如果我可以在RM中构建整个东西,我只需要每次点击播放,伸展我的手臂,放松,直到它完成并转储所有……”
这就是精神:微笑,非常快乐;
为了复制Excel Pivot功能,您实际上需要在RapidMiner中组合2到3个操作符。它们是“Pivot”、“Aggregate”,有时甚至是“Generate Attributes”。
为什么是这三个?因为Excel其实是在骗你。Pivot操作本身实际上只是旋转,但他们也在数据透视表中内置了总计/分组/聚合功能。虽然这当然是有用的,但它实际上不仅仅是旋转……
不管怎样,也许上面的提示已经有所帮助了。如果没有,如果您可以与我们分享一些数据(如果它不是敏感的),我们可以尝试帮助您构建这样一个流程,交付所需的输出。最好是一个Excel文件与原始数据(就像它在RapidMiner),然后另一个选项卡显示数据透视表,就像你想要的那样。然后我们可以共同努力建立这个过程,我相信你可以从那里开始……
欢呼,
Ingo
谢谢你!@IngoRM我想我有时候就是这么懒,哈哈。你知道他们说什么,懒惰的人倾向于找到聪明的解决方案:微笑的舌头,或者至少我希望!无论如何,再次感谢你的帮助。我将继续尝试聚合和生成属性,看看是否可以弄清楚。但是如果您也想看一看,我也分享了数据(匿名)和rapidminer处理xml,让您了解我想要实现的目标。excel文件在一个工作表上包含两个示例枢轴,在另一个工作表上包含集群输出。可以将输出数据用作流程的输入,方法为集群属性。
致以最良好的问候,下午好!
@IngoRM附在这篇文章的是样本枢轴。我发现我无法在论坛上上传包含多个表格的xlsx文件,所以我将该文件拆分为两个csv文件。不幸的是,样本枢轴不再表现为excel枢轴。很抱歉给您带来不便。
您可能还对Crosstab操作符感兴趣,它可以在Marketplace的Statistics扩展中获得。为了方便起见,它实际上将一些步骤合并为一个操作符。但是正如Ingo已经说过的,通过聚合和生成聚合,你已经可以在基本的RapidMiner Studio中完成你需要的一切。
Lindon合资企业
乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
好了,开始吧:
我只对种族做了这个,并且还添加了一些操作符来更好地格式化东西(你知道,像更好的名字,百分比符号和诸如此类的东西)。我希望你能从这里接手…
周末愉快。
Ingo
谢谢你!@IngoRM对不起,我没能尽快回复你。希望你也度过了一个愉快的周末。非常感谢你在这里帮助我!我真诚的感谢: