“情感分析-数字标签，并寻找正确的过程”

andk · 2011年3月

我又有一个问题，对于那些已经玩过Rapidminer的情感分析特性的人来说，这个问题可能很容易回答。一方面，我收集了数千个文档，从中提取了我需要的信息，并编制了一个矩阵，其中包含了文档中出现的表达式的相关T-IDF分数。另一方面，我有一个包含单词的矩阵，其中也包含每个单词在0到1之间的特定情感得分。现在的问题是如何将这两条线索结合起来，以衡量随着时间的推移，文件中反映的情绪。现在的想法是将T-IDF矩阵与单词/情绪得分矩阵相匹配。或者更准确地说，我想看看情感矩阵的哪些表达式也出现在相关文档中，并用各自的IDF值对它们进行加权。有什么流程可以做到这一点吗?我试着按照这里描述的例子来做http://rapid-i.com/rapidforum/index.php/topic,2993.0.html以及温哥华数据博客视频教程5中提出的分类方法，但问题似乎在于学习过程不接受数字标签。谁能给我点提示吗?我真的很感激!

最好的问候,

安德烈

土地 · 2011年3月

你好安德烈,
这是一种非常不寻常的方法。通常情况下，你要避免自己提出这个情绪/词矩阵，让它做程序!您通常为所有文档分配特定的情绪，然后应用学习方案来获得效果。
如果您手动分配了这些因素，那么您已经手动进行了数据挖掘并派生了某种线性模型。你要做的就是把它们放到一个模型中，这样你就可以应用它们了。没有建议的方法，因为，就像我说的:通常没有人想这样做。
我唯一能想到的就是用XML导出一个线性回归模型，然后手动编辑这个文件并重新导入它……

问候,
塞巴斯蒂安。

andk · 2011年3月

Sebastian，谢谢你的回复。我这两天断了网。我想这是误会，或者我把问题解释得有点复杂。我有一个带有每个词的情感值的词向量。这是从sentiwordnet我刚刚计算了一个有用的措施，为我的目的给定的值。此外，我有一个词表和idf矩阵分别通过正常的文字处理从相当大量的文档中获得。我现在的想法是创建两个数据处理过程的词表，并将它们相互匹配。这意味着我想要查看从文档中提取的单词列表中出现了哪些我具有情感值的表达式。我尝试用跨距离过程来做这个。但是wordlist是文档处理过程的结果，为了选择正确的属性，我必须将包含数据的wordlist转换为wordlist过程。 it turns out that the wordlist to data processor formats the expressions in my wordlist to a polynominal for and it seems that the crossdistance processor can't handle this. which parameter of the crossdistance process would be the right one to match nominal expressions?
伙计们，我希望我不会让你们太紧张。只要有可能，我也会在这个论坛上提供帮助!

致以最诚挚的问候，安德烈

土地 · 2011年4月

你好,
我认为你用一种可以理解的方式解释了你在做什么，但我不明白你为什么要这样做?结果的意义是什么?

问候,
塞巴斯蒂安。

andk · 2011年4月

它应该只是让我有可能估计一篇文章的情感，因为我已经对它的几个标志有了情感。所以实际上我有两个词表一个来自我的文章，另一个是归因于情感的，我必须把这两个部分联系起来，换句话说，我必须看看我的情感符号出现在哪篇文章中。不幸的是，我缺乏使用这个跨距离操作符的技术技能，因为我认为这应该是适合我的操作符。不管怎样，谢谢Sebastian的努力!但如果你再次遇到这个话题，你会有一个想法，这将是非常有帮助的与我分享。

致以最诚挚的问候，安德烈

andk · 2011年4月

真的没有人能帮我吗?只是为了更清楚一点我想做什么，使它更有吸引力^^帮助我，我已经创建了表来显示我想做什么。
情感词表(从CSV文件创建)(表1)

ID	词	Sentimentscore
1	能力	0.7
2	猫	0
3.	主管	0.6
4	腐败的	-0.6
5	房子	0.1
6	…	…

通过处理文档得到的Wordlist(表2)

ID	词
1	能力
2	牛
3.	房子
4	主管
5	电脑
6	…

现在我想看看Tab1和Tab2的单词列是否匹配，以及在哪里匹配。最好的方法是为Tab1和Tab2的所有单词组合提供一个具有距离或相似性度量的向量。在这个过程中，也不应该丢失内容Sentimentscore。有什么东西可以帮我解决这个问题吗?这可能看起来像这样:

Tab1	Tab2	距离	Sentimentscore
能力	能力	0	0.7
能力	牛	1	0.7
能力	房子	1	0.7
…	…	…	…
主管	主管	0	0.6
…	…	…	…

我想强调的是，这只是出于学术和个人利益的目的。我在给自己定位，我可以在我的论文中做些什么，并尝试一些RM。我期待你的评论!

最好的问候,

安德烈

IngoRM · 2011年4月

你好,

表2中的单词是唯一的吗(我猜至少在表1中是唯一的)?如果是，如果您对“完全匹配”(距离0)感兴趣，那么简单的“Join”将足以将单词列作为id。“没有匹配”(距离1)。

否则，必须创建一个更复杂的过程，这肯定也是可能的。

欢呼,
Ingo

andk · 2011年4月

Ingo，非常感谢!啊

好的，这是一种方法，我将在我的windows RM机器上再次测试。这样一个更复杂的过程距离会是怎样的呢?我不需要细节，只需要一个提示或草图，哪些操作符可能工作，以及如何设置单词属性的角色!谢谢你的帮助!
谢谢!

安德烈

IngoRM · 2011年4月

你好再次,

实际上，即使Tab2中的单词不是唯一的，连接方法也应该能很好地工作。你最终会得到一个数据集Tab2(取决于使用左连接或右连接)，其中有一个额外的列，包含Tab1中相应的情感得分。然后，简单的聚合(平均或求和)将为表2中编码的文档提供最终的聚合分数。

好吧，如果您想计算基于文本的相似性，我会查看RapidMiner的文本扩展并使用提供的预处理操作符。例如，您可以将单词转换为词干，使用字符n-grams和其他方法来计算两个表中术语之间的距离。当然，也可以循环遍历两个表并执行任何类型的距离度量，您可以在其中构建操作符。最后，您当然可以编写自己的距离测量并在RapidMiner中使用它。可能有数百种选择。尽情尝试吧!

欢呼,
Ingo

andk · 2011年4月

英戈，你是英雄!非常感谢!我会尝试你的建议并报告!

周末愉快!

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

“情感分析-数字标签，并寻找正确的过程”

答案