评估文本

MarkusW · 2021年9月

你好,

我在试着测试，一台简单的机器在预测文本属性(特别是讽刺)方面的表现如何。

我把数据放在一个庞大的表中，其中一列是源，一列是标签，这应该被预测，最后一列是文本，算法应该分析。

问题是，如果没有某种工具来提取意义或情感，结果(不足为奇)会非常糟糕。

无论是在Rapid- Miner主页上的宣传文字，还是建议我使用Rapid Miner的教授，都暗示有这样的工具已经是Rapid Miner的一部分，但是我还没有在文档/手册中找到任何东西。

这些工具叫什么/如何使用?

BalazsBarany · 2021年9月

嗨@MarkusW，

RapidMiner有一个市场，你可以在菜单中找到(“扩展”)。在那里你会发现文本处理和Web挖掘扩展。

学院里有一门完整的文本挖掘课程:
https://academy.www.turtlecreekpls.com/courses/text-and-web-mining-with-rapidminer

问候,
Balazs

BalazsBarany · 2021年10月

这就跟你问声好！

是的，讽刺检测是一个很大的挑战，简单的模型无法胜任。

你在学院的课程里看过“文件自动分类”吗?

它解释了Process Documents操作符。您在这里需要添加的唯一内容是“生成n-Grams(术语)”。这将创建新的术语组合属性，如“不太好”和“我真的很喜欢它”。当然，后续单词的所有组合都将被创建，因此这为您提供了大量的新属性。这也许能帮到你的讽刺。

朴素贝叶斯和支持向量机是非常适合这种情况的建模算法。其他算法需要很长时间，在这类数据上表现不佳，深度学习可能是个例外，但你需要大量的资源来执行。乐鱼体育安装

问候,
Balazs

MarkusW · 2021年9月

谢谢@BalazsBarany快速反应。

似乎

语义云文本分析

正是我所寻找的(尽管我需要一段时间才能真正使用它)。

MarkusW · 2021年9月

好吧@BalazsBarany恐怕您发给我的课程有两个问题:

第一，它似乎过时了，因为它想让我使用“提取内容”操作符(实际上没有解释它)，但在我的RapidMiner版本中不存在这样的操作符。

我想等价物有不同的名字。

第二个问题是，它似乎有一个不同的目标，而不是我需要的。该课程只规定了如何具体处理具有单列文本的表，以及如何对它们进行表面分析。

我有一个多列的表，其中只有一个包含文本，另一个包含标签，这是要预测的。

如果我不使用自动模型，它只会看单词的相关性。我需要的是某种程度上可以分析相关专栏内容的东西(我将其标记为情感分析是有原因的)

BalazsBarany · 2021年9月

这就跟你问声好！

提取内容是在Web挖掘扩展。

在操作符工具箱中，您有两个与情绪相关的操作符，它们在某些条件下(语言等)工作。你可以看一下。

如果它们对你的内容不够好，你需要使用Academy课程中的方法自己建立一个情感模型。情感将是这里的标签;如果你还没有标签，你需要自己为几百个典型文本打分，并使用手动分配的情感作为标签。然后在第一步中预测情绪，将结果更改为普通属性，然后将标签与这个新属性一起使用。

“分析内容”是一种非常类似人类的活动。文本挖掘方法通过查看术语或术语的组合来工作。您可以完全控制RapidMiner中的进程，或者使用外部服务在后台执行类似的操作。

问候,
Balazs

MarkusW · 2021年9月

你好,再一次@BalazsBarany，

你不会碰巧知道这些特工的名字吧?你指的是“情感分析”和“基于方面的情感分析”吗?

给Auto-Model函数加上一个简单的文本挖掘方法，这样它就可以查看术语而不是单个单词，这已经是一个巨大的进步了。

我担心手动训练一个情绪分析算法(因为我没有一个适当标记的数据集)来进行讽刺检测，这远远超出了我在几周内所能达到的效果。

BalazsBarany · 2021年10月

你好,

如果你想在你的数据中检测讽刺，但你没有标签数据，那么你不能在这里使用经典数据挖掘。

你也许可以找到一家提供讽刺检测服务的公司，并使用它。或者如果你真的需要一个公司，你可以找一些助手来标记几百个文档/文本，这样你就可以引导一个模型。

当你有一个标记的数据集时，RapidMiner将帮助你。文本挖掘操作符在学院文本挖掘课程中有描述。您可以在此过程中使用术语(n-grams)。

问候,
Balazs

MarkusW · 2021年10月

谢谢@BalazsBarany，感谢您的耐心。

让我最后再试一次，来解释一下我的情况:我有一个表格，第一列是来源，第二列是标签sarcasm/notsarcasm，最后一列是文本。

我想看看，我在笔记本电脑上一天训练出来的机器预测第二列的能力有多强。

如果我只使用自动模型，它会生成机器，但这些机器真的很糟糕，因为它们只会看单个单词和标签之间的相关性。

我想做的是用任何类型的文本处理来序言自动模型。《快速矿工手册》、《学院》和《文档》几乎没有帮助。

我不会训练任何情绪分析，除了讽刺/不讽刺，因为我只有sarc/notsarc这个标签。

有一个操作员“情感分析”，但无论是手册还是文档都没有说，它会做什么，或者如何将其整合到自动模型中。

你发给我的教程很好，如果我想做它所做的，因为它没有解释如何做，只解释什么。

认为马库斯

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

评估文本

最好的答案

答案

语义云文本分析