对这个项目的建议
Goodmorning每个人,
我有一个数据集组成如下:
- ts:新闻发布的日期;
-正文:新闻的正文;
-股票:新闻所指行动的股票代码(如TWTR: Twitter);
- positive:整数> = 0。从财经的角度来看,表示新闻中“积极”词汇的数量;
- negative:整数> = 0。从财经的角度来看,表示新闻中“否定”词的数量。
特别是我必须执行:
1)探索性数据分析
2)数据分析技术,即:
协会规则
聚类=使用一种或多种算法(例如,KMeans,
DBSCAN) +评估各种专家素质指标(如SSE)。
你有什么建议,从哪里开始,我应该怎么走?
非常感谢!!
0
最佳答案
-
lionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽嗨@ElenaVet,
1/你可以先看看RapidMiner Academy上的一些视频:
关于集群:
https://academy.www.turtlecreekpls.com/catalog?query=clustering
-关于关联规则:
https://academy.www.turtlecreekpls.com/catalog?query=association%20rules
2/在RapidMiner中有更多关于AR和集群的流程模板:
3/更一般地说,你可以在RapidMiner Studio的右上角搜索框中乐鱼体育安装搜索到很多资源:
希望这能帮到你,
问候,
莱昂内尔
5
答案
你的回答很鼓舞人心!但是,您认为对文本数据进行预处理是必要的吗?你认为如何开始是正确的?
如果我没理解错,你的。”身体Attribute是一个文本属性,所以,是的,你必须预处理这个属性
通过令牌化等过程文档子进程创建一个“词向量”。
要执行此预处理步骤,您可以通过搜索“文本挖掘”或在RapidMiner Academy上查看视频
你可以直接在RapidMiner Studio的右上角搜索乐鱼体育安装框中搜索一些资源,就像你搜索“集群”和“关联规则”一样。
问候,
莱昂内尔
非常感谢!我还注意到有些项目不是英语的(例如德语,意大利语,西班牙语和其他…),我怎么能只选择英语新闻?
你可以使用“文本向量化”接线员:
-选择你的文本属性(在你的情况下“body”,如果我理解得好)
——选择添加语言在这个运算符的参数中
-操作员将根据您的新闻语言生成一个名为“语言”的属性,该属性具有不同的值:英语,意大利语,西班牙语等
-然后使用滤波器的例子操作符仅过滤language = English的示例
问候,
莱昂内尔
不幸的是,过滤器示例不能识别语言标签。需要正片叠底吗?或者我需要用新标签写一个新的CSV,然后再处理它?
谢谢
如果没有出现语言属性的名称,则必须手动输入:
问候,
莱昂内尔