类别

版本

朴素贝叶斯(RapidMiner Studio Core)

剧情简介

该算子生成朴素贝叶斯分类模型。

描述

朴素贝叶斯是一种高偏差、低方差的分类器,即使在很小的数据集上也能建立很好的模型。它使用简单,计算成本低廉。典型的用例涉及文本分类,包括垃圾邮件检测、情感分析和推荐系统。

朴素贝叶斯的基本假设是,给定标签(类)的值,任何属性的值都独立于任何其他属性的值。严格地说,这种假设很少是正确的(它是“幼稚的”!),但经验表明,朴素贝叶斯分类器通常工作得很好。独立性假设极大地简化了建立朴素贝叶斯概率模型所需的计算。

为了完成概率模型,有必要对给定类的单个属性的条件概率分布做出一些假设。该算子使用高斯概率密度对属性数据建模。

分化

朴素贝叶斯(核)

替代算子朴素贝叶斯(核)是朴素贝叶斯的一种变体,其中多个高斯函数被组合起来,以创建一个核密度。

输入

  • 训练集(数据表)

    输入端口需要一个ExampleSet。

输出

  • 模型(模型)

    朴素贝叶斯分类模型从这个输出端口传递。该模型现在可以应用于未标记的数据来生成预测。

  • 榜样(数据表)

    作为输入给出的ExampleSet将不做任何更改地传递。

参数

  • laplace_correction

    朴素贝叶斯的简单性包含一个缺点:如果在训练数据中给定的属性值从未出现在给定类的上下文中,则条件概率被设置为零。当这个零值与其他概率相乘时,这些值也被设置为零,结果会产生误导。拉普拉斯校正是避免这个问题的一个简单技巧,在每个计数上加1以避免零值的出现。对于大多数训练集来说,每次计数加1对估计概率的影响可以忽略不计。

    范围:

教程的过程

将朴素贝叶斯应用于虹膜数据集

鸢尾数据集包含150个示例,对应于鸢尾植物的三种不同类别:鸢尾、鸢尾和鸢尾。鸢尾花每一类有50个示例,每个示例包含6个属性:标签、id和4个与植物物理特性相对应的真实属性。

A1 =萼片长度(厘米)a2 =萼片宽度(厘米)a3 =花瓣长度(厘米)a4 =花瓣宽度(厘米

在教程过程中,基于鸢尾植物的物理特性创建鸢尾类的预测模型。运行Process时,将分三步显示输出:

1.显示整个虹膜数据集。

2.显示虹膜数据集的一个子集,以及基于朴素贝叶斯的预测。

3.显示混淆矩阵,表明预测与数据集高度一致(准确率:98.33%)。

Operator Split Data将原始数据集分成两部分:一部分用于训练朴素贝叶斯,另一部分用于评估模型。结果表明,该简单模型能够很好地拟合虹膜数据集。