对这个项目的建议

ElenaVetElenaVet 成员职位:9学我
2020年5月编辑 帮助
Goodmorning每个人,
我有一个数据集组成如下:
- ts:新闻发布的日期;
-正文:新闻的正文;
-股票:新闻所指行动的股票代码(如TWTR: Twitter);
- positive:整数> = 0。从财经的角度来看,表示新闻中“积极”词汇的数量;
- negative:整数> = 0。从财经的角度来看,表示新闻中“否定”词的数量。
特别是我必须执行:
1)探索性数据分析
2)数据分析技术,即:
协会规则
聚类=使用一种或多种算法(例如,KMeans,
DBSCAN) +评估各种专家素质指标(如SSE)。
你有什么建议,从哪里开始,我应该怎么走?
非常感谢!!

最佳答案

答案

  • ElenaVetElenaVet 成员职位:9学我
    谢谢你!@lionelderkrikor
    你的回答很鼓舞人心!但是,您认为对文本数据进行预处理是必要的吗?你认为如何开始是正确的?
  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @ElenaVet,

    如果我没理解错,你的。”身体Attribute是一个文本属性,所以,是的,你必须预处理这个属性
    通过令牌化等过程文档子进程创建一个“词向量”。
    要执行此预处理步骤,您可以通过搜索“文本挖掘”或在RapidMiner Academy上查看视频
    你可以直接在RapidMiner Studio的右上角搜索乐鱼体育安装框中搜索一些资源,就像你搜索“集群”和“关联规则”一样。

    问候,

    莱昂内尔
  • ElenaVetElenaVet 成员职位:9学我
    @lionelderkrikor
    非常感谢!我还注意到有些项目不是英语的(例如德语,意大利语,西班牙语和其他…),我怎么能只选择英语新闻?
  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @ElenaVet,

    你可以使用“文本向量化”接线员:
    -选择你的文本属性(在你的情况下“body”,如果我理解得好)
    ——选择添加语言在这个运算符的参数中
    -操作员将根据您的新闻语言生成一个名为“语言”的属性,该属性具有不同的值:英语,意大利语,西班牙语等
    -然后使用滤波器的例子操作符仅过滤language = English的示例

    问候,

    莱昂内尔
    ElenaVet
  • ElenaVetElenaVet 成员职位:9学我
    @lionelderkrikor
    不幸的是,过滤器示例不能识别语言标签。需要正片叠底吗?或者我需要用新标签写一个新的CSV,然后再处理它?
    谢谢
  • lionelderkrikorlionelderkrikor 主持人,RapidMiner认证分析师,会员职位:1195年独角兽
    @ElenaVet,

    如果没有出现语言属性的名称,则必须手动输入:



    问候,

    莱昂内尔
登录注册置评。