类别

版本

您正在查看9.2 -版本的RapidMiner Studio文档点击这里查看最新版本

样本(RapidMiner Studio Core)

剧情简介

该操作符通过随机选择示例从ExampleSet创建一个示例。样本的大小可以用绝对、相对和概率来表示。

描述

这个操作符在原则上类似于Filter Examples操作符,它接受一个ExampleSet作为输入,并提供一个ExampleSet的子集作为输出。不同之处在于Filter Examples操作符根据指定的条件过滤示例。但样本算子关注的是样本的数量和类分布。而且样本是随机生成的。样本中的样例数量可以根据参数的设置以绝对、相对或概率的方式指定样本参数。样本的类分布可以通过平衡数据参数。

输入

  • 示例集输入(IOObject)

    这个输入端口需要一个ExampleSet。它是附带的示例流程中检索操作符的输出。

输出

  • 示例集输出(IOObject)

    输入ExampleSet的随机样本是该端口的输出。

  • 原始(IOObject)

    作为输入给出的ExampleSet不会通过该端口更改为输出。这通常用于在进一步的操作符中重用相同的ExampleSet,或者在结果工作区中查看ExampleSet。

参数

  • 样本此参数决定如何指定数据量。
    • absolute:如果sample参数被设置为'absolute',则样本是由精确指定数量的示例创建的。所需的示例数在样本量参数中指定。
    • 相对的:如果样本参数被设置为“相对的”,那么样本将被创建为输入ExampleSet中样本总数的一部分。所需的样本比例在样本比率参数中指定。
    • 概率:如果样本参数设置为“概率”,则以概率为基础创建样本。所需的概率在样本概率参数中指定。
    选择范围:
  • balance_data如果您需要对特定类的示例进行不同的采样,则可以将此参数设置为true。如果此参数设置为true,样本大小样本率样本的概率参数被替换为每个类的样本量每类抽样比每类样本概率参数分别。这些参数允许您为label属性的不同值指定不同的样本大小。范围:布尔
  • sample_size此参数指定应该采样的示例的确切数量。此参数仅在样本参数设置为'absolute',则平衡数据参数未设置为true。范围:整数
  • sample_ratio此参数指定应该采样的示例的比例。此参数仅在样本参数设置为“相对”,则平衡数据参数未设置为true。范围:真正的
  • sample_probability此参数指定每个示例的样本概率。此参数仅在样本参数设置为'probability',则平衡数据参数未设置为true。范围:真正的
  • sample_size_per_class此参数指定每个类的绝对样本量。此参数仅在样本参数设置为'absolute',则平衡数据参数设置为true。范围:
  • sample_ratio_per_class此参数指定每个类的示例数。此参数仅在样本参数设置为“相对”,则平衡数据参数设置为true。范围:
  • sample_probability_per_class此参数指定每个类的示例概率。此参数仅在样本参数设置为'probability',则平衡数据参数设置为true。范围:
  • use_local_random_seed该参数表示a局部随机种子应该用于随机化样本的例子。使用相同的值局部随机种子会产生相同的样品。改变这个参数的值改变了样本随机化的方式,因此样本将有一组不同的样本。范围:布尔
  • local_random_seed此参数指定局部随机种子.此参数仅在使用当地的随机种子参数设置为true。范围:整数

教程的过程

对Ripley-Set数据集进行采样

使用检索操作符加载“Ripley-Set”数据集。在其上应用了Generate ID操作符,以便可以唯一地标识示例。在此阶段插入一个断点,以便在应用Sample操作符之前看到ExampleSet。你可以看到有250个例子,有两个可能的类:0和1。125个例子属于类别0 125个例子属于类别1。现在,Sample操作符被应用到ExampleSet上。样例参数设置为“相对”。balance data参数设置为true。每个类的样本比率参数指定了两个比率。0级的分配比率为0.2。 Thus, of all the examples where label attribute is 0 only 20 percent will be selected. There were 125 examples with class 0, so 25 (i.e. 20% of 125) examples will be selected. Class 1 is assigned ratio 1. Thus, of all the examples where label attribute is 1, 100 percent will be selected. There were 125 examples with class 1, so all 125 (i.e. 100% of 125) examples will be selected. Run the process and you can verify the results. Also note that the examples are taken randomly. The randomization can be changed by changing the local random seed parameter.