我可以在中文文本中使用Rapidminer进行LDA模型和情感分析吗?

波利 · 2020年4月

大家好！

我是这里的新手，这是我的问题。

我需要将Latent Dirichlet Allocation模型和情感分析应用到中文文本中，但我不知道我是否可以用Rapidminer来做这些，或者我需要进一步安装哪些扩展才能进行分析。
我已经搜索了关于中文/普通话的讨论，并且已经安装了讨论中提到的Hanminer扩展。但我不认为Hanminer扩展足以进行这两种分析，而且之前似乎没有人提出过这个问题。

请给我一些建议。任何想法都将非常感激!

最好的
波利

MartinLiebig · 2020年4月

你好,
从我的理解来看，它应该能起作用。但@yyhuang是或普通话专家。

欢呼,
马丁

波利 · 2020年4月

你好,马丁@mschmitz，

谢谢你的回复。
我阅读了其他关于LDA的讨论，只是为了确保，如果我想进行潜在狄利克雷分配模型，“线性判别分析”是我应该使用的算子吗?是大多数人在讨论中提到的“从数据中提取主题”操作符吗?

另外，我想知道我应该用哪个算子来进行情感分析?是奇异值分解(SVD)吗?

此外，因为在讨论LDA的过程中没有结果，你问“这是‘西方’文本吗?”LDA在这些标记上使用默认的标记化，如空格等。如果不是拉丁字母，这可能完全失败，我猜文本语言对结果有很大的影响。因此，要对中文文本进行分析，是否需要安装或组合使用任何扩展或操作符?

很抱歉有这么多问题。如果您能给我一些建议，我将不胜感激。提前谢谢!

问候,
波利

MartinLiebig · 2020年4月

嗨@Polly，

您要使用的操作符是从数据中提取主题，而不是线性离散分析。

是的，LDA在内部使用标记化。我刚刚意识到，默认的标记化是在\s上并且是不可更改的，所以我猜它很难应用于普通话。就像我说的，我只会说德语和英语，并不是普通话/粤语符号化的专家。所以我不知道如果我提供标记化作为一种选择是否会有所帮助。

欢呼,

马丁

波利 · 2020年4月

嗨,马丁,

谢谢你的帮助

我希望@yyhuang你能给我一些建议吗?

欢呼,
波利

你好,陌生人!

快速链接

类别

RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

我可以在中文文本中使用Rapidminer进行LDA模型和情感分析吗?

答案