推论统计- R, Python或扩展

michaelgloven · 2019年9月

作为合作伙伴，我希望使用RapidMiner来集成相关的推断统计方法，如假设检验、置信区间、卡方等，作为客户端实现的一部分。我看到有一个付费扩展来做这项工作，但考虑到这些方法的简单性和管理付费订阅的不必要负担，集成这些方法只是偶尔使用，是否有一个免费的操作符库可用，或者我只需要利用R或Python创建我自己的?我们只需要一些偶尔使用的方法，我想知道除了R, Python或付费扩展，是否还有其他选择?谢谢!

michaelgloven · 2019年9月

我通常通过取样本均值(或中位数)-零假设值(我正在测试的值)除以假设中心极限定理约束的标准误差来计算z检验统计量。对于SE，我通常使用样本标准差/样本的平方根。然后，我将这个结果与临界z值(单尾检验为1.65，显著性水平为5%)进行比较，看看我是否应该拒绝或接受假设。数学很简单，我只是在寻找一个简单的操作符来自动化工作，因为测试我们的数据和结果对我们特定的用例是多么重要。我相信根据你上面的建议，我可以做到这一切。

MartinLiebig · 2019年9月

嗨,迈克尔,

我刚刚(上周四)添加了一个名为“比较分布”的操作符到SMILE扩展。它提供了ks检验、卡方检验、f检验和t检验。这已经有帮助了吗?

BR,

马丁

michaelgloven · 2019年9月

太棒了，你像往常一样领先我几步。看起来这是可行的，我将查看文档。你能给我指出计算z检验统计量的正确方向吗?

MartinLiebig · 2019年9月

嗨,迈克尔,

我们的想法是从均值中得到标准发展的数量?我想我们还没有。

但是，Tukey测试在操作符工具箱是相当相似的，我觉得更好。它的定义是:

对于每一个选定的属性，计算一个可信的Tukey检验。这个置信度被定义为当前值到中值之间的距离，除以下/上“Tukey检验边界”到中值的距离。

因此，我们不使用平均值和std_dev，而是使用四分位数范围和中位数。中位数对异常值比平均值更稳健，所以i和许多统计数据的人更喜欢它。

你能看看Tukey测试吗?我们可能只是写相同的东西，但使用mean和std_dev，如果这是你需要的。

欢呼,

马丁

CB123 · 2020年10月

你好，我试图使用比较分布操作符来做T-tes,F-tes和Kolmogorov，但我找不到正在使用的显著性水平，也找不到我可以改变它的地方。
先谢谢你

MartinLiebig · 2020年10月

嗨CB123,

我可能会出错，但是运算符应该会返回统计数据和统计数据的p值。据我所知，这并不涉及显著性水平。显著性水平不只是用来否定给定p值的假设吗?

最好的

马丁

yyhuang · 2020年10月

嗨@CB123，

在KS测试中，KS统计量，p-value将如Martin博士上面提到的那样返回。你在实践中通常使用的显著水平是多少?

常见的α值(显著水平)为0.05和0.01只是基于传统。

当P值小于或等于显著性水平时，则拒绝原假设。如果我们从统计检验中取P值，并将其与共同显著性水平进行比较。例如，0.03112的P值在0.05的alpha水平上有统计学意义，但在0.01水平上没有统计学意义。

键糟http://haifengl.github.io/api/java/smile/stat/hypothesis/KSTest.html

希望能有所帮助。

YY

CB123 · 2020年10月

非常感谢你的回答!
我的问题是，我试图自动化T检验和F检验中的步骤，我需要的不仅仅是p值，比如统计数据T和F，以及临界区域。
有没有办法像excel一样用F和T分布来计算列呢?

谢谢你！

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

推论统计- R, Python或扩展

最佳答案

答案