处理测试数据- SVM的输入和输出

HeikoeWin786 · 2020年7月

亲爱的所有,

我注意到，当我对测试(未见过/未标记的数据集)执行相同的数据处理步骤时，处理的输出消除了列(它消除了常规属性，只返回标签)，即不同于处理训练数据集的输出，其中训练数据集的输出返回标签和常规属性。
它也显示了错误。
如果有人能在这个建模过程中给我建议或教育我，那就太好了。
提前感谢。

Image: https://us.v-cdn.net/6030995/uploads/editor/cl/s0wynopha3ax.png

MartinLiebig · 2020年7月

嗨@HeikoeWin786，

1) SVM只能处理数值属性，是的。这就是为什么您需要执行tf/idf将文本转换为数字矢量的原因。但是，它可以使用二名标记。这应该行得通。

那么我觉得2号比较好。

最好的

马丁

MartinLiebig · 2020年7月

你好,

这是一个警告，而不是错误。当你运行它时，你确定它失败了吗?

欢呼,

马丁

HeikoeWin786 · 2020年7月

你好@mschmitz

非常感谢您的回复。
这不是失败，这是一个警告。但是，为什么这个警告显示，即使它没有消失。
然而，我感到困惑的是:从数据(2)操作符中提取流程文档正在消除列。
例如，对于从数据(1)操作符提取流程文档，单词被标记并转换为许多常规属性。然而，对于(2)，exe显示0个属性，只有一个标签属性。
我不知道我做得对不对。
我所理解的是，训练数据集和未见/未标记数据集的预处理应该是相同的，我们将训练数据集预处理的单词输出作为未见/未标记数据集的输入。

期待您的解释。

谢谢。

MartinLiebig · 2020年7月

嗨@HeikoeWin786，

一般来说，你做的对我来说是正确的，但我当然需要检查细节，看看发生了什么。特别令人感兴趣的是“在”来自数据(2)的过程文档“内部”发生了什么。

关于警告，我们需要从我们拥有的元数据中生成警告。我们在没有实际数据的情况下通过进程传输表头，因为我们还没有执行该进程。所以有些事情是我们不知道的。这方面的一个例子是:在流程文档中创建哪些列?只有运行后才能知道。

这就是为什么你有时会收到“不合适”的警告。但这也是为什么这些是警告，而不是错误。

欢呼,

马丁

HeikoeWin786 · 2020年7月

你好@mschmitz
感谢您的及时回复。以警告案例而闻名。
然而，我有两个扩展的问题:
1)我试图在数据集上执行支持向量机，其中客户评论为多标称，情感评分为生物标称。我读了教程，发现SVM只能处理数字，需要将标称转换为数字。然而，它是将客户评论和情感评分都转换为数字吗?我们需要在哪些步骤中进行转换?数据处理后?我有点困惑的情绪分析是如何工作的支持向量机在快速矿工。示例模板下的RM教程使用文本和二项式，甚至没有转换为数字。
2)我在处理的文档中使用了tokenize, transform cases, filter stopwords, stem porter和按token长度过滤。对于预处理(1)和预处理(2)都是一样的。

非常感谢您的提前解释!

HeikoeWin786 · 2020年7月

@mschmitz
谢谢你友好的解释。帮助!
最后一个问题。
我将“标称文本”设置为“ALL”，而不是选择单个属性，例如客户评论文本。
在这种情况下，标签属性是否也将更改为Text?
是否有必要将标签属性从普通属性排除到文本属性?
我在标称文本操作符之前使用设置角色操作符。

谢谢,

MartinLiebig · 2020年7月

你好,

如果选中“include special attributes”，则标签也会转换为文本。如果你不检查，它就不是。

最好的

马丁

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

处理测试数据- SVM的输入和输出

最佳答案

答案