类别

版本

回归

初步:平均值与中位数

给定一组数字,你如何定义它们的数字“中心”?

这个问题的一个常见答案是,“中心”是由平均值给出的——也被称为的意思是.根据数据的分布方式,平均值可能是也可能不是表示数据集的好方法。当所有数据紧密地聚集在一起时,平均值通常是一个很好的选择。

当数据更分散时,数据的其他表示可能更合适。与平均水平相比,中位数对异常值相对不敏感。请参阅以下两个示例,其中第二个数据集为值8已经被108.平均值变化很大,但中位数不受影响。

数据集 {1,2,3,6,8} {1,2,3,6,108}
的意思是 4 24
中位数 3. 3.

在排序的数字列表中,中位数是恰好位于列表中间的数,其中较小的值和较大的值一样多。

应该选择均值还是中位数来表示数据?只要你没有显著的异常值,这应该无关紧要,但如果你有,就像第二个例子,你必须做出决定,这取决于你的调查目的。

假设每个数据点代表一个小村庄里一户人家的家庭收入,并且您希望将这些数据与其他村庄的数据进行比较。

  • 平均值更准确地代表了全村的收入(这是一个总和!)
  • 中位数更准确地代表了一个典型家庭的收入,忽略了异常值。

如果你爱吵架,你可能会说均值和中位数都不是第二个数据集的好指标;为什么不把它们都忽略,而是用一个包含所有数据的图表来显示呢?当数据已经存在时,这个论点有一些优点,但我们正在建立一个预测模型,正是因为(未来的)数据还不存在!我们不能轻易地逃避这个问题。

没有人会相信你的预测模型,除非它做出了合理的预测,而要做到这一点,它必须在你当前数据的中心编织一条路径训练集),使用自己对“中心”的定义,并且比其他模型或多或少地关注异常值。即使您没有创建模型,您仍然可以通过以下方式对结果进行一些控制

  • (a)选择适当的绩效指标,以及
  • (b)根据该指标选择具有最佳性能的模型。

性能指标

我们需要一些符号。假设测试集N行,并让索引n确定其中一行。

  • Σ_n -测试集中所有行的总和
  • Y_n -在测试集的第n行中,目标列的值
  • X_n——在测试集的第n行中,用于预测Y_n的非目标数据的值
  • f(X_n) -模型生成的预测,使用X_n作为输入。与实际值Y_n比较。

实际值和预测值|Y_n - f(X_n)|之间的差有时被称为剩余.一个成功的模型当然应该最小化残差,但由于存在不止一种组合残差的方法,因此也存在各种性能指标。对于回归问题,RapidMiner Go提供了以下指标:

性能指标 公式
均方根误差(RMSE) sqrt [Σ_n (Y_n - f(X_n))]2/ sqrt(N)
平均绝对误差 (1 / N) Σ_n |Y_n - f(X_n)|
平均相对误差 (1 / N) Σ_n (|Y_n - f(X_n)| / |Y_n|)
平方相关系数(R2) 看到决定系数

让我们把这些公式转化为有用的建议。

性能指标 描述
均方根误差(RMSE) 如果您喜欢平均值,请选择具有最小均方根误差值的模型。如上所述,平均值赋予异常值更大的权重。
平均绝对误差 如果您喜欢中位数,请选择平均绝对误差最小值的模型。如上所述,中位数对异常值的权重较小。
平均相对误差 平均绝对误差的一种变体,其中误差以实际值的百分比计算。
平方相关系数(R2) 寻找R2的高值(接近于1),表示预测值和实际值之间有很高的相关性。

性能图表

预测值与实际值图表预测值与实际值的简单散点图显示了模型应用于测试集时的性能。每个点的x坐标是它的实际值;每个点的y坐标是它的预测值。蓝色实线yx表示理想(完美)模型中所有预测值与其实际值相等的点的位置。蓝色虚线表示的边界xy95%置信区间的。这些点越接近蓝色实线,模型越好。

预测误差分布图:预测误差(预测值与实际值之间的差值)的频率直方图显示了模型应用于测试集时的性能。预测误差为0表示理想(完美)模型,其中所有预测都等于实际值。0附近的预测误差越多(即0附近的频率条越高),模型越好。蓝色虚线表示95%置信区间的边界。

例子:根据广告数据预测销售额

作为回归分析的一个例子,我们检查数据集Advertising.csv由加雷斯·詹姆斯、丹妮拉·威滕、特雷弗·海斯蒂和罗伯特·蒂布希拉尼在他们的书中提供统计学习导论.这个数据集的目的是表明你可以通过三个不同渠道(电视、广播和报纸)的广告预算来预测销售量(是的,这是一个旧的数据集!)

从上面的链接下载CSV文件后,按照中概述的步骤操作构建模型

  1. 上传Advertising.csv进入RapidMiner Go。

  2. 选择“Sales”作为要预测的列。

  3. 确保选择“TV”作为输入之一。电视广告与销售有很高的相关性,这将帮助我们做出更好的预测。

  4. 选择并运行所有模型。

模型比较

模型比较,决策树与之相比,谁是明显的赢家广义线性模型(GLM)

  • 根据每个指标,它的误差更小均方根误差平均绝对误差,平均相对误差
  • 它的值更大平方相关(R2)

指标之间的强烈一致表明,在这个数据集中没有显著的异常值。

决策树

通过点击决策树,你可以看到实际值与预测值图表。它类似于一条直线,因为预测是正确的。

重新计算一下:没有电视数据

和以前一样,带着流失预测数据,我们重新计算一下,排除高度相关的数据。如下面的截图所示,决策树如果没有电视广告数据,情况会更糟。

  • 平均绝对误差翻了四倍,从0.905到3.754
  • 平方相关系数(R2)从0.954暴跌至0.254

虽然也不是很好,但是广义线性模型(GLM)是不是真的比决策树

注意实际值与预测值图表决策树不再是一条直线。

结论?为了获得好的结果,请确保包含所有相关数据。