对这个项目的建议

ElenaVet · 2020年5月

Goodmorning每个人,

我有一个数据集组成如下:

- ts:新闻发布的日期;

-正文:新闻的正文;

-股票:新闻所指行动的股票代码(如TWTR: Twitter);

- positive:整数> = 0。从财经的角度来看，表示新闻中“积极”词汇的数量;

- negative:整数> = 0。从财经的角度来看，表示新闻中“否定”词的数量。

特别是我必须执行:

1)探索性数据分析

2)数据分析技术，即:

协会规则

聚类=使用一种或多种算法(例如，KMeans，

DBSCAN) +评估各种专家素质指标(如SSE)。

你有什么建议，从哪里开始，我应该怎么走?

非常感谢!!

lionelderkrikor · 2020年5月

嗨@ElenaVet,

1/你可以先看看RapidMiner Academy上的一些视频:
关于集群:
https://academy.www.turtlecreekpls.com/catalog?query=clustering

-关于关联规则:
https://academy.www.turtlecreekpls.com/catalog?query=association%20rules

2/在RapidMiner中有更多关于AR和集群的流程模板:

Image: https://us.v-cdn.net/6030995/uploads/editor/yr/3ac3ybcm50oz.png

3/更一般地说，你可以在RapidMiner Studio的右上角搜索框中乐鱼体育安装搜索到很多资源:

Image: https://us.v-cdn.net/6030995/uploads/editor/lk/2km0qb0lvapu.png

Image: https://us.v-cdn.net/6030995/uploads/editor/lm/m5gm1uusdxdg.png

希望这能帮到你，

问候,

莱昂内尔

ElenaVet · 2020年5月

谢谢你！@lionelderkrikor！
你的回答很鼓舞人心!但是，您认为对文本数据进行预处理是必要的吗?你认为如何开始是正确的?

lionelderkrikor · 2020年5月

嗨@ElenaVet,

如果我没理解错，你的。”身体Attribute是一个文本属性，所以，是的，你必须预处理这个属性
通过令牌化等过程文档子进程创建一个“词向量”。
要执行此预处理步骤，您可以通过搜索“文本挖掘”或在RapidMiner Academy上查看视频
你可以直接在RapidMiner Studio的右上角搜索乐鱼体育安装框中搜索一些资源，就像你搜索“集群”和“关联规则”一样。

问候,

莱昂内尔

ElenaVet · 2020年5月

@lionelderkrikor
非常感谢!我还注意到有些项目不是英语的(例如德语，意大利语，西班牙语和其他…)，我怎么能只选择英语新闻?

lionelderkrikor · 2020年5月

嗨@ElenaVet,

你可以使用“文本向量化”接线员:
-选择你的文本属性(在你的情况下“body”，如果我理解得好)
——选择添加语言在这个运算符的参数中
-操作员将根据您的新闻语言生成一个名为“语言”的属性，该属性具有不同的值:英语，意大利语，西班牙语等
-然后使用滤波器的例子操作符仅过滤language = English的示例

问候,

莱昂内尔

ElenaVet · 2020年5月

@lionelderkrikor
不幸的是，过滤器示例不能识别语言标签。需要正片叠底吗?或者我需要用新标签写一个新的CSV，然后再处理它?
谢谢

lionelderkrikor · 2020年5月

@ElenaVet,

如果没有出现语言属性的名称，则必须手动输入:

Image: https://us.v-cdn.net/6030995/uploads/editor/90/ibc7xpal7tb6.png

问候,

莱昂内尔

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

对这个项目的建议

最佳答案

答案