从数据中提取主题(LDA)

Lottew44 · 2020年5月

嗨

通过从文件中处理文档(subprocess:转换案例> tokenize >过滤器stopwords >过滤器令牌的长度)我已经创建了一个基于6个文档的示例集，其中我想通过从数据(DLA)操作符提取主题，一切都很好，但我仍然有少于4个令牌出现在属于主题的单词列表中，以及stopwords(，和…)有人知道我还能做什么吗?我已经在第一步中使用了过滤停止词和长度(4 - 25)操作符的过滤令牌，但我显然做错了什么，因为我仍然在主题列表中有那些毫无意义的单词。@mschmitz你能帮帮我吗?

这是XML文件-非常感谢!

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 9.6.000”>

> <上下文

<输入/ >

<输出/ >

<宏/ >

> < /上下文

.

<过程扩展= " true " >

<列出关键= " text_directories " >

.

< / >列表

.

<过程扩展= " true " >

< /操作符>

.

< /操作符>

.

> < /过程

< /操作符>

.

< /操作符>

.

. .

.

> < /过程

< /操作符>

> < /过程

Telcontar120 · 2020年5月

我似乎记得之前遇到过类似的问题，但我不记得解决方案了。
@mschmitz应该能帮上点忙。
与此同时，如果在文本数据处理之后将数据存储为一个新的示例集，然后在运行LDA提取主题之前将其作为一个新集检索，会发生什么情况?这将切断它对各种停止词和短标记的访问。

MartinLiebig · 2020年5月

你好,

坦白地说，我很惊讶这竟然能起作用?过程文件不是创建TF-IDF向量吗?

最好的

马丁

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

从数据中提取主题(LDA)

答案