从数据中提取主题(LDA)

Lottew44Lottew44 成员职位:2学我


通过从文件中处理文档(subprocess:转换案例> tokenize >过滤器stopwords >过滤器令牌的长度)我已经创建了一个基于6个文档的示例集,其中我想通过从数据(DLA)操作符提取主题,一切都很好,但我仍然有少于4个令牌出现在属于主题的单词列表中,以及stopwords(,和…)有人知道我还能做什么吗?我已经在第一步中使用了过滤停止词和长度(4 - 25)操作符的过滤令牌,但我显然做错了什么,因为我仍然在主题列表中有那些毫无意义的单词。@mschmitz你能帮帮我吗?

这是XML文件-非常感谢!

<?xml version="1.0" encoding="UTF-8"?> <过程version = " 9.6.000”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文
.
.
<过程扩展= " true " >
<列出关键= " text_directories " >
.
< / >列表
.
.
.
<过程扩展= " true " >
< /操作符>
.
.
.
< /操作符>
< /操作符>
.
.
.
> < /过程
< /操作符>
.
.
.
< /操作符>
.
. .
.
.
> < /过程
< /操作符>
> < /过程

答案

  • Telcontar120Telcontar120 主持人,RapidMiner认证分析师,RapidMiner认证专家,会员职位:1635年独角兽
    我似乎记得之前遇到过类似的问题,但我不记得解决方案了。
    @mschmitz应该能帮上点忙。
    与此同时,如果在文本数据处理之后将数据存储为一个新的示例集,然后在运行LDA提取主题之前将其作为一个新集检索,会发生什么情况?这将切断它对各种停止词和短标记的访问。
    布莱恩·T。
    Lindon合资企业
    乐鱼平台进入数据科学咨询由认证的RapidMiner专家
  • MartinLiebigMartinLiebig 管理员,主持人,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3350年RM数据科学家
    你好,

    坦白地说,我很惊讶这竟然能起作用?过程文件不是创建TF-IDF向量吗?

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管-
    德国多特蒙德
登录注册置评。