类别

版本

您正在查看9.2 -版本的RapidMiner Studio文档点击这里查看最新版本

样本(Kennard-Stone)(RapidMiner Studio Core)

剧情简介

该操作符使用Kennard-Stone算法从给定的ExampleSet创建一个样本。样品的尺寸可按绝对尺寸和相对尺寸指定。

描述

样本(Kennard-Stone)运算符执行Kennard-Stone抽样。该采样算法的工作原理如下:

  • 在ExampleSet中找到两个相距最远的点。
  • 对于每个候选点,找到到任何已选对象的最小距离。
  • 选择具有这些最小距离中最大的点。
这个算法总是给出相同的结果,因为两个起始点总是相同的。该实现通过保存具有最大最小距离的候选列表来减少迭代次数。请注意,由于该算法的工作方式,样本中的示例数可能与指定的不完全相同。

采样操作符在原则上类似于Filter Examples操作符,它们接受一个ExampleSet作为输入,并提供一个ExampleSet的子集作为输出。不同之处在于Filter Examples操作符根据指定的条件过滤示例。但是样本运算符关注的是样本的数量和类分布。而且样本是随机生成的。样本中的样例数量可以根据的设置,以绝对和相对的方式指定样本参数。

输入

  • 示例集输入(IOObject)

    这个输入端口需要一个ExampleSet。它是附带的示例流程中检索操作符的输出。

输出

  • 示例集输出(IOObject)

    应用Kennard-Stone算法,输入ExampleSet的结果样本是该端口的输出。

  • 原始(IOObject)

    作为输入给出的ExampleSet不会通过该端口更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。

参数

  • 样本此参数决定如何指定数据量。
    • absolute:如果sample参数被设置为'absolute',那么样本是由精确指定数量的例子创建的。所需的示例数在样本量参数中指定。
    • 相对的:如果样本参数设置为“相对的”,那么样本将作为输入ExampleSet中样本总数的一部分创建。所需的样本比例在样本比率参数中指定。
    选择范围:
  • sample_size此参数指定应该采样的示例的确切数量。此参数仅在样本参数设置为'absolute'。范围:整数
  • sample_ratio此参数指定应该采样的示例的比例。此参数仅在样本参数设置为“相对”。范围:真正的

教程的过程

虹膜数据集的肯纳德-斯通抽样

使用Retrieve操作符加载'Iris'数据集。这里插入了一个断点,以便您可以查看ExampleSet。可以看到,ExampleSet有150个示例。Sample (Kennard-Stone)操作符应用于ExampleSet。样本参数设置为“绝对”,样本大小参数设置为15。因此,最终的样本将只有15个示例。结果工作区中可以看到包含15个示例的ExampleSet。