引入参数概率估计

MartinLiebig · 2017年12月

特征准备是数据科学中最具挑战性和最重要的任务之一。乐鱼平台进入这项任务有三个方面

保存最多的信息以获得最佳结果
将属性的数量减少到最小以获得最佳运行时
使数据易于理解的算法

通过使数据易于理解，您可以获得最佳性能。一个给定的学习者可能善于发现某些模式，但对其他模式可能是盲目的。广义线性模型(GLM)就是一个很好的例子，它在检测线性模式方面表现良好，但在检测非线性模式方面表现不佳。新的算子单变量概率估计器是对特征准备工具包的一个有用的补充。

了解您的数据

经典CRISP-DM周期中的前两个任务是业务理解和数据理解。在这些阶段中，分析人员对给定的任务了解了很多。有了这些信息，他通常可以对属性分布推断出合理的假设。为了说明这一点，让我们来看两个例子。

在客户分析场景中，您可能有一个属性NumberOfCalls。这包括你给客户打电话的次数。根据统计知识，我们可以合理地假设这个属性是泊松分布的。

在诸如预测性维护之类的传感器分析中，您经常需要处理大量测量数据。由于中心极限定理，传感器的响应通常是正态分布的。

使用此信息

在分类任务中，我们假设属性有能力区分我们的类。我们可以假设这两个类各有一个底层分布。这种分布遵循相同的模式(例如正态分布)，但参数不同。现在我们可以估计每个类的参数。在二项情况下，我们得到两个分布。

泊松分布的PDF格式。Low和High值被映射为低概率，而20左右的值具有高概率。如果我们为给定示例取一个值，我们可以计算该值适合这些分布之一的概率。这为我们的分类带来了两个新属性:1)X属于FirstClassDistribution的概率和2)X属于SecondClassDistribution的概率。

这是一个非线性特征变换。对于所有发行版，请考虑两种情况。一方面，与平均值相比较小或较大的属性值被映射到较低的概率。另一方面，接近平均值的值被映射为更高的概率。这导致了问题的线性化。像GLM或线性支持向量机这样的线性模型可以比原始形式更容易地处理这些值。另一种效果出现在随机森林或gbt等基于树的模型中，它们也可以更好地处理这些数据，因为它们需要更少的切割来实现相同的分离。

在RapidMiner中使用它可以直接使用称为单变量概率估计器的新算子。设置主要是分布假设和使用分布假设的属性。截至2017年12月，我们支持以下发行版: