“情感分析-数字标签,并寻找正确的过程”
我又有一个问题,对于那些已经玩过Rapidminer的情感分析特性的人来说,这个问题可能很容易回答。一方面,我收集了数千个文档,从中提取了我需要的信息,并编制了一个矩阵,其中包含了文档中出现的表达式的相关T-IDF分数。另一方面,我有一个包含单词的矩阵,其中也包含每个单词在0到1之间的特定情感得分。现在的问题是如何将这两条线索结合起来,以衡量随着时间的推移,文件中反映的情绪。现在的想法是将T-IDF矩阵与单词/情绪得分矩阵相匹配。或者更准确地说,我想看看情感矩阵的哪些表达式也出现在相关文档中,并用各自的IDF值对它们进行加权。有什么流程可以做到这一点吗?我试着按照这里描述的例子来做http://rapid-i.com/rapidforum/index.php/topic,2993.0.html以及温哥华数据博客视频教程5中提出的分类方法,但问题似乎在于学习过程不接受数字标签。谁能给我点提示吗?我真的很感激!
最好的问候,
安德烈
最好的问候,
安德烈
标记:
0
答案
这是一种非常不寻常的方法。通常情况下,你要避免自己提出这个情绪/词矩阵,让它做程序!您通常为所有文档分配特定的情绪,然后应用学习方案来获得效果。
如果您手动分配了这些因素,那么您已经手动进行了数据挖掘并派生了某种线性模型。你要做的就是把它们放到一个模型中,这样你就可以应用它们了。没有建议的方法,因为,就像我说的:通常没有人想这样做。
我唯一能想到的就是用XML导出一个线性回归模型,然后手动编辑这个文件并重新导入它……
问候,
塞巴斯蒂安。
伙计们,我希望我不会让你们太紧张。只要有可能,我也会在这个论坛上提供帮助!
致以最诚挚的问候,安德烈
我认为你用一种可以理解的方式解释了你在做什么,但我不明白你为什么要这样做?结果的意义是什么?
问候,
塞巴斯蒂安。
致以最诚挚的问候,安德烈
情感词表(从CSV文件创建)(表1)
最好的问候,
安德烈
表2中的单词是唯一的吗(我猜至少在表1中是唯一的)?如果是,如果您对“完全匹配”(距离0)感兴趣,那么简单的“Join”将足以将单词列作为id。“没有匹配”(距离1)。
否则,必须创建一个更复杂的过程,这肯定也是可能的。
欢呼,
Ingo
谢谢!
安德烈
实际上,即使Tab2中的单词不是唯一的,连接方法也应该能很好地工作。你最终会得到一个数据集Tab2(取决于使用左连接或右连接),其中有一个额外的列,包含Tab1中相应的情感得分。然后,简单的聚合(平均或求和)将为表2中编码的文档提供最终的聚合分数。
好吧,如果您想计算基于文本的相似性,我会查看RapidMiner的文本扩展并使用提供的预处理操作符。例如,您可以将单词转换为词干,使用字符n-grams和其他方法来计算两个表中术语之间的距离。当然,也可以循环遍历两个表并执行任何类型的距离度量,您可以在其中构建操作符。最后,您当然可以编写自己的距离测量并在RapidMiner中使用它。可能有数百种选择。尽情尝试吧!
欢呼,
Ingo
周末愉快!