复制Excel数据透视表功能

batstache611batstache611 成员职位:45大师
2018年12月编辑 帮助

你好,

我经常使用excel对过程结果进行更深入的检查,例如根据属性检查集群组成,或者检查评分集上的GLM预测。例:不同城市的每一个集群的分布是什么城市属性,或者预测的潜在客户如何分布在各个业务中类别地区属性,等等。我需要反复这样做很多次,直到我满意得分数据看起来和训练数据非常相似,或者我的聚类足够不同。作为一种习惯,我不会盲目地相信算法或计算机程序。

我在RM中使用了pivot操作符,但与excel不同的是,首先它没有给我数据透视表的行或列的总数。其次,我不知道如何去改变数字行/列总数的百分比父行/列总数的百分比等,就像在excel中一样。我已经能够调整小数点后的有效数字,但仅此而已。此外,Pivot操作符中定义的索引属性不会传递给下一组操作符。例如,如果索引属性为集群,数据透视表包含属性cluster_0、cluster_1、2、3等。它们不会传递给下一个操作符——比如,生成聚合或选择属性等。我必须手动输入。

我在rapidminer内部寻找解决方案的原因是为了避免不得不来回做这么多,并不断地用不同的数据值一遍又一遍地重新创建相同的枢轴。如果我可以在RM中构建整个东西,我只需要每次点击play并伸展手臂并放松,直到它完成并将所有数据透视表和其他输出转储到结果窗口中。非常感谢。

答案

  • IngoRMIngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区经理、RMResearcher、会员、大学教授职位:1751年RM创始人

    你好,

    “如果我可以在RM中构建整个东西,我只需要每次点击播放,伸展我的手臂,放松,直到它完成并转储所有……”

    这就是精神:微笑,非常快乐;

    为了复制Excel Pivot功能,您实际上需要在RapidMiner中组合2到3个操作符。它们是“Pivot”、“Aggregate”,有时甚至是“Generate Attributes”。

    为什么是这三个?因为Excel其实是在骗你。Pivot操作本身实际上只是旋转,但他们也在数据透视表中内置了总计/分组/聚合功能。虽然这当然是有用的,但它实际上不仅仅是旋转……

    不管怎样,也许上面的提示已经有所帮助了。如果没有,如果您可以与我们分享一些数据(如果它不是敏感的),我们可以尝试帮助您构建这样一个流程,交付所需的输出。最好是一个Excel文件与原始数据(就像它在RapidMiner),然后另一个选项卡显示数据透视表,就像你想要的那样。然后我们可以共同努力建立这个过程,我相信你可以从那里开始……

    欢呼,

    Ingo

    Thomas_Ott
  • batstache611batstache611 成员职位:45大师

    谢谢你!@IngoRM我想我有时候就是这么懒,哈哈。你知道他们说什么,懒惰的人倾向于找到聪明的解决方案:微笑的舌头,或者至少我希望!无论如何,再次感谢你的帮助。我将继续尝试聚合和生成属性,看看是否可以弄清楚。但是如果您也想看一看,我也分享了数据(匿名)和rapidminer处理xml,让您了解我想要实现的目标。excel文件在一个工作表上包含两个示例枢轴,在另一个工作表上包含集群输出。可以将输出数据用作流程的输入,方法为集群属性。

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.5.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >




    <列出关键= "注释" >

    < / >列表

    <列出关键= " data_set_meta_data_information " >


















































    < / >列表
    < /操作符>


    < /操作符>

    <列出关键= " function_descriptions " >












    < / >列表
    < /操作符>

    <列出关键= " function_descriptions " >









    < / >列表
    < /操作符>


    <参数key="attributes" value="id " |人均收入|桶券金额|桶调查金额|桶总金额|桶用户账户余额|桶用户年龄|大学|高收入群体|高中|低收入群体|房屋价值中值|租金中值|中等收入群体|拥有房屋|出租房屋|贸易学校|大学|教育程度|族裔|房主|收入|工作水平|语言|家庭|少数族裔状态|numChildren|numCreditCards|关系|workMode|user_id|handyRating|nextCarType"/>

    < /操作符>


    <过程扩展= " true " >


    < /操作符>




    > < /过程
    < /操作符>



    <列出关键= " comparison_groups " / >
    < /操作符>

    <参数key="attributes" value="|大学|职业学校|租房|买房|中等收入群体|租金中值|低收入群体|高中|高收入群体|交易频率|调查频率|赎回频率|优惠券频率|大学"/>

    < /操作符>





    < /操作符>




    < /操作符>


    <列出关键= " key_attributes " >

    < / >列表
    < /操作符>


    <过程扩展= " true " >

    <列出关键= " aggregation_attributes " >













    < / >列表

    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>



    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>



    <参数键= value =“replace_what \ _count(百分比 \(.*\)\_)(.*)" / >

    < /操作符>


    < /操作符>

































































    > < /过程
    < /操作符>


    < /操作符>






















    > < /过程
    < /操作符>
    > < /过程

    致以最良好的问候,下午好!

  • batstache611batstache611 成员职位:45大师

    @IngoRM附在这篇文章的是样本枢轴。我发现我无法在论坛上上传包含多个表格的xlsx文件,所以我将该文件拆分为两个csv文件。不幸的是,样本枢轴不再表现为excel枢轴。很抱歉给您带来不便。

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽

    您可能还对Crosstab操作符感兴趣,它可以在Marketplace的Statistics扩展中获得。为了方便起见,它实际上将一些步骤合并为一个操作符。但是正如Ingo已经说过的,通过聚合和生成聚合,你已经可以在基本的RapidMiner Studio中完成你需要的一切。

    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入来自认证RapidMiner专家的数据科学咨询
  • IngoRMIngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区经理、RMResearcher、会员、大学教授职位:1751年RM创始人

    好了,开始吧:

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.5.001”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >




    <列出关键= "注释" >

    < / >列表

    <列出关键= " data_set_meta_data_information " >









































































    < / >列表
    < /操作符>

    <列出关键= " filters_list " >

    < / >列表
    < /操作符>

    <列出关键= " aggregation_attributes " >

    < / >列表

    < /操作符>

    <列出关键= " function_descriptions " >

    < / >列表
    < /操作符>




    < /操作符>



    < /操作符>



    <列出关键= " rename_additional_attributes " / >
    < /操作符>



    < /操作符>











    > < /过程
    < /操作符>
    > < /过程

    我只对种族做了这个,并且还添加了一些操作符来更好地格式化东西(你知道,像更好的名字,百分比符号和诸如此类的东西)。我希望你能从这里接手…

    周末愉快。

    Ingo

  • batstache611batstache611 成员职位:45大师

    谢谢你!@IngoRM对不起,我没能尽快回复你。希望你也度过了一个愉快的周末。非常感谢你在这里帮助我!我真诚的感谢:

登录注册置评。