我可以在中文文本中使用Rapidminer进行LDA模型和情感分析吗?

波利波利 成员职位:3.学我
大家好!

我是这里的新手,这是我的问题。

我需要将Latent Dirichlet Allocation模型和情感分析应用到中文文本中,但我不知道我是否可以用Rapidminer来做这些,或者我需要进一步安装哪些扩展才能进行分析。
我已经搜索了关于中文/普通话的讨论,并且已经安装了讨论中提到的Hanminer扩展。但我不认为Hanminer扩展足以进行这两种分析,而且之前似乎没有人提出过这个问题。

请给我一些建议。任何想法都将非常感激!

最好的
波利

答案

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3317年RM数据科学家
    你好,
    从我的理解来看,它应该能起作用。但@yyhuang是或普通话专家。

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
  • 波利波利 成员职位:3.学我
    你好,马丁@mschmitz

    谢谢你的回复。
    我阅读了其他关于LDA的讨论,只是为了确保,如果我想进行潜在狄利克雷分配模型,“线性判别分析”是我应该使用的算子吗?是大多数人在讨论中提到的“从数据中提取主题”操作符吗?

    另外,我想知道我应该用哪个算子来进行情感分析?是奇异值分解(SVD)吗?

    此外,因为在讨论LDA的过程中没有结果,你问“这是‘西方’文本吗?”LDA在这些标记上使用默认的标记化,如空格等。如果不是拉丁字母,这可能完全失败,我猜文本语言对结果有很大的影响。因此,要对中文文本进行分析,是否需要安装或组合使用任何扩展或操作符?

    很抱歉有这么多问题。如果您能给我一些建议,我将不胜感激。提前谢谢!

    问候,
    波利

  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3317年RM数据科学家
    @Polly
    您要使用的操作符是从数据中提取主题,而不是线性离散分析。

    是的,LDA在内部使用标记化。我刚刚意识到,默认的标记化是在\s上并且是不可更改的,所以我猜它很难应用于普通话。就像我说的,我只会说德语和英语,并不是普通话/粤语符号化的专家。所以我不知道如果我提供标记化作为一种选择是否会有所帮助。

    欢呼,
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
  • 波利波利 成员职位:3.学我
    嗨,马丁,

    谢谢你的帮助笑脸:
    我希望@yyhuang你能给我一些建议吗?

    欢呼,
    波利
登录注册置评。