推论统计- R, Python或扩展

michaelglovenmichaelgloven RapidMiner认证分析师,会员职位:46大师
2019年9月编辑 帮助
作为合作伙伴,我希望使用RapidMiner来集成相关的推断统计方法,如假设检验、置信区间、卡方等,作为客户端实现的一部分。我看到有一个付费扩展来做这项工作,但考虑到这些方法的简单性和管理付费订阅的不必要负担,集成这些方法只是偶尔使用,是否有一个免费的操作符库可用,或者我只需要利用R或Python创建我自己的?我们只需要一些偶尔使用的方法,我想知道除了R, Python或付费扩展,是否还有其他选择?谢谢!
标记:

最佳答案

  • michaelglovenmichaelgloven RapidMiner认证分析师,会员职位:46大师
    解决方案接受
    我通常通过取样本均值(或中位数)-零假设值(我正在测试的值)除以假设中心极限定理约束的标准误差来计算z检验统计量。对于SE,我通常使用样本标准差/样本的平方根。然后,我将这个结果与临界z值(单尾检验为1.65,显著性水平为5%)进行比较,看看我是否应该拒绝或接受假设。数学很简单,我只是在寻找一个简单的操作符来自动化工作,因为测试我们的数据和结果对我们特定的用例是多么重要。我相信根据你上面的建议,我可以做到这一切。
    Tghadially

答案

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    2019年9月编辑
    嗨,迈克尔,

    我刚刚(上周四)添加了一个名为“比较分布”的操作符到SMILE扩展。它提供了ks检验、卡方检验、f检验和t检验。这已经有帮助了吗?

    BR,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    sgenzer Tghadially yyhuang
  • michaelglovenmichaelgloven RapidMiner认证分析师,会员职位:46大师
    太棒了,你像往常一样领先我几步。看起来这是可行的,我将查看文档。你能给我指出计算z检验统计量的正确方向吗?
  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    嗨,迈克尔,

    我们的想法是从均值中得到标准发展的数量?我想我们还没有。

    但是,Tukey测试在操作符工具箱是相当相似的,我觉得更好。它的定义是:

    对于每一个选定的属性,计算一个可信的Tukey检验。这个置信度被定义为当前值到中值之间的距离,除以下/上“Tukey检验边界”到中值的距离。

    因此,我们不使用平均值和std_dev,而是使用四分位数范围和中位数。中位数对异常值比平均值更稳健,所以i和许多统计数据的人更喜欢它。

    你能看看Tukey测试吗?我们可能只是写相同的东西,但使用mean和std_dev,如果这是你需要的。


    欢呼,

    马丁


    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    Tghadially
  • CB123CB123 成员职位:2贡献我
    你好,我试图使用比较分布操作符来做T-tes,F-tes和Kolmogorov,但我找不到正在使用的显著性水平,也找不到我可以改变它的地方。
    先谢谢你
  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家
    嗨CB123,
    我可能会出错,但是运算符应该会返回统计数据和统计数据的p值。据我所知,这并不涉及显著性水平。显著性水平不只是用来否定给定p值的假设吗?
    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
    yyhuang
  • yyhuangyyhuang 管理员,员工,RapidMiner认证分析师,RapidMiner认证专家,成员职位:362RM数据科学家
    @CB123

    在KS测试中,KS统计量,p-value将如Martin博士上面提到的那样返回。你在实践中通常使用的显著水平是多少?

    常见的α值(显著水平)为0.05和0.01只是基于传统。

    当P值小于或等于显著性水平时,则拒绝原假设。如果我们从统计检验中取P值,并将其与共同显著性水平进行比较。例如,0.03112的P值在0.05的alpha水平上有统计学意义,但在0.01水平上没有统计学意义。

    键糟http://haifengl.github.io/api/java/smile/stat/hypothesis/KSTest.html

    希望能有所帮助。

    YY
    MartinLiebig
  • CB123CB123 成员职位:2贡献我
    非常感谢你的回答!
    我的问题是,我试图自动化T检验和F检验中的步骤,我需要的不仅仅是p值,比如统计数据T和F,以及临界区域。
    有没有办法像excel一样用F和T分布来计算列呢?

    谢谢你!
登录注册置评。