评估文本

MarkusWMarkusW 成员职位:22贡献我
2021年9月编辑 帮助
你好,
我在试着测试,一台简单的机器在预测文本属性(特别是讽刺)方面的表现如何。
我把数据放在一个庞大的表中,其中一列是源,一列是标签,这应该被预测,最后一列是文本,算法应该分析。
问题是,如果没有某种工具来提取意义或情感,结果(不足为奇)会非常糟糕。
无论是在Rapid- Miner主页上的宣传文字,还是建议我使用Rapid Miner的教授,都暗示有这样的工具已经是Rapid Miner的一部分,但是我还没有在文档/手册中找到任何东西。

这些工具叫什么/如何使用?

最好的答案

  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:828独角兽
    解决方案接受
    @MarkusW

    RapidMiner有一个市场,你可以在菜单中找到(“扩展”)。在那里你会发现文本处理和Web挖掘扩展。

    学院里有一门完整的文本挖掘课程:
    https://academy.www.turtlecreekpls.com/courses/text-and-web-mining-with-rapidminer

    问候,
    Balazs
    MarkusW
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:828独角兽
    解决方案接受
    这就跟你问声好!

    是的,讽刺检测是一个很大的挑战,简单的模型无法胜任。

    你在学院的课程里看过“文件自动分类”吗?

    它解释了Process Documents操作符。您在这里需要添加的唯一内容是“生成n-Grams(术语)”。这将创建新的术语组合属性,如“不太好”和“我真的很喜欢它”。当然,后续单词的所有组合都将被创建,因此这为您提供了大量的新属性。这也许能帮到你的讽刺。

    朴素贝叶斯和支持向量机是非常适合这种情况的建模算法。其他算法需要很长时间,在这类数据上表现不佳,深度学习可能是个例外,但你需要大量的资源来执行。乐鱼体育安装

    问候,
    Balazs

答案

  • MarkusWMarkusW 成员职位:22贡献我
    谢谢@BalazsBarany快速反应。
    似乎

    语义云文本分析

    正是我所寻找的(尽管我需要一段时间才能真正使用它)。
  • MarkusWMarkusW 成员职位:22贡献我
    好吧@BalazsBarany恐怕您发给我的课程有两个问题:
    第一,它似乎过时了,因为它想让我使用“提取内容”操作符(实际上没有解释它),但在我的RapidMiner版本中不存在这样的操作符。
    我想等价物有不同的名字。
    第二个问题是,它似乎有一个不同的目标,而不是我需要的。该课程只规定了如何具体处理具有单列文本的表,以及如何对它们进行表面分析。
    我有一个多列的表,其中只有一个包含文本,另一个包含标签,这是要预测的。
    如果我不使用自动模型,它只会看单词的相关性。我需要的是某种程度上可以分析相关专栏内容的东西(我将其标记为情感分析是有原因的)
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:828独角兽
    这就跟你问声好!

    提取内容是在Web挖掘扩展。

    在操作符工具箱中,您有两个与情绪相关的操作符,它们在某些条件下(语言等)工作。你可以看一下。

    如果它们对你的内容不够好,你需要使用Academy课程中的方法自己建立一个情感模型。情感将是这里的标签;如果你还没有标签,你需要自己为几百个典型文本打分,并使用手动分配的情感作为标签。然后在第一步中预测情绪,将结果更改为普通属性,然后将标签与这个新属性一起使用。

    “分析内容”是一种非常类似人类的活动。文本挖掘方法通过查看术语或术语的组合来工作。您可以完全控制RapidMiner中的进程,或者使用外部服务在后台执行类似的操作。

    问候,
    Balazs
  • MarkusWMarkusW 成员职位:22贡献我
    2021年9月编辑
    你好,再一次@BalazsBarany
    你不会碰巧知道这些特工的名字吧?你指的是“情感分析”和“基于方面的情感分析”吗?
    给Auto-Model函数加上一个简单的文本挖掘方法,这样它就可以查看术语而不是单个单词,这已经是一个巨大的进步了。
    我担心手动训练一个情绪分析算法(因为我没有一个适当标记的数据集)来进行讽刺检测,这远远超出了我在几周内所能达到的效果。
  • BalazsBaranyBalazsBarany 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家职位:828独角兽
    你好,

    如果你想在你的数据中检测讽刺,但你没有标签数据,那么你不能在这里使用经典数据挖掘。

    你也许可以找到一家提供讽刺检测服务的公司,并使用它。或者如果你真的需要一个公司,你可以找一些助手来标记几百个文档/文本,这样你就可以引导一个模型。

    当你有一个标记的数据集时,RapidMiner将帮助你。文本挖掘操作符在学院文本挖掘课程中有描述。您可以在此过程中使用术语(n-grams)。

    问候,
    Balazs
  • MarkusWMarkusW 成员职位:22贡献我
    谢谢@BalazsBarany,感谢您的耐心。
    让我最后再试一次,来解释一下我的情况:我有一个表格,第一列是来源,第二列是标签sarcasm/notsarcasm,最后一列是文本。
    我想看看,我在笔记本电脑上一天训练出来的机器预测第二列的能力有多强。
    如果我只使用自动模型,它会生成机器,但这些机器真的很糟糕,因为它们只会看单个单词和标签之间的相关性。
    我想做的是用任何类型的文本处理来序言自动模型。《快速矿工手册》、《学院》和《文档》几乎没有帮助。
    我不会训练任何情绪分析,除了讽刺/不讽刺,因为我只有sarc/notsarc这个标签。
    有一个操作员“情感分析”,但无论是手册还是文档都没有说,它会做什么,或者如何将其整合到自动模型中。
    你发给我的教程很好,如果我想做它所做的,因为它没有解释如何做,只解释什么。

    认为马库斯
登录注册置评。