登录
注册
乐鱼官网手机版下载
解决方案
乐鱼体育安装
定价
合作伙伴
公司
你好,陌生人!
看起来你是新来的。登录或注册开始。
使用RapidMiner登录
使用RapidMiner登录
登录
注册
快速链接
类别
最近的讨论
最好的…
没有回答
组
类别
17.4 k
所有类别
19.5 k
帮助
442
知识库
Altair RapidMiner社区
得到帮助。学习最佳实践。与你的同事建立联系。
讨论
确定从数据中提取主题(LDA)操作符中主题数量的最佳方法是什么
作者
日期内
1天
3天
1周
2周
1个月
2个月
6个月
1年
的
例如:周一,今天,上周,3月26日,3/26/04
搜索
0评论
0的讨论
0成员
0在线
问一个问题
寻找有用的视频
首页
;
帮助
确定从数据中提取主题(LDA)操作符中主题数量的最佳方法是什么
cmoten
成员
职位:
2
学我
2020年5月
在
帮助
我有一个数据集,由用户列出产品名称的数千种方式组成。比如苹果的MacBook、MacBook、MacBookPro等。其中包括各种各样的产品,但我试图将人们描述它们乐鱼官网手机版下载的相似方式归类为集群。从数据操作符提取主题似乎正在做的伎俩,但我手动选择组的数量。有没有一种方法可以根据相似性来确定组的数量?我希望这是有意义的。
标记:
文本挖掘+ NLP
0
最佳答案
lionelderkrikor
主持人,RapidMiner认证分析师,会员
职位:
1195年
独角兽
2020年5月
解决方案接受
嗨
@cmoten
,
在RapidMiner中,在第一个近似中,我看到了以下方法(要确认的方法)
@mschmitz
:
提取主题- LDA-
接线员是马丁的孩子……
):
使用一个
优化参数(网格)
算子并绘制
“困惑”
根据
话题数k:
困惑度越低,模型越好。
例如,在下面的例子中,“最优”主题数k为6:
在附带的文件中,一个例子的过程,以找到最优的主题数量使用
优化参数(网格)
操作符。
问候,
莱昂内尔
Extract_Topics_optimal_k.rmp
13.5 k
8
答案
cmoten
成员
职位:
2
学我
2020年5月
非常感谢你的例子。这很有帮助。看起来您正在用逗号分隔文本并将其保存为列。然后翻转数据,使列作为行列出,并将最后一列重命名为“text”。然后将所有单独的示例集附加到一个示例集中。
Optimization Parameter确定主题的最佳数量是6,但是从数据提取主题操作符上列出的主题数量似乎仍然显示为10。优化参数的结果将作为Extract Topics的参数传递。我想我知道它是怎么运作的。
我尝试应用到我的数据集,并最初收到一个错误。我认为整体尺寸太大了,所以我取了一个数据样本,它奏效了。结果没有得到我想要的,但我将有另一个过程添加到我的工具带。我会继续试验的。再次感谢你的帮助。
1
LaraNeu
成员
职位:
4
学我
2021年1月
嗨,我很高兴我找到了这篇文章,因为我需要为我的LDA分析找到最佳数量的主题。感谢您的过程!我在多个数据集上运行它来测试它,但奇怪的是,对于我使用的任何数据集,结果总是5个主题。我做错什么了吗?除了更改数据集之外,我还需要在过程中调整一些东西吗?如果你能帮忙,请告诉我。非常感谢!
0
MartinLiebig
管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授
职位:
3362年
RM数据科学家
2021年1月
嗨
@LaraNeu
,
有点棘手的问题。困惑会给你提示去哪里看,但有时你只需要自己检查一下,因为有时只有多个“正确的解决方案”。我的主要例子是我在这里写的一篇文章:
https://towardsdatascience.com/topic-mining-on-amazon-reviews-ae76fc286c61
。如果话题数量少,你就会有一个“热饮”话题。使用更多的话题,它分为茶和咖啡。两者都有道理,但你需要决定你想要什么。
就指标而言,我是排他性的粉丝,因为我在解释它方面做得更好。
最好的
马丁
- RapidMin乐鱼平台进入er数据科学服务主管
德国多特蒙德
0
Muhammed_Fatih_
成员
职位:
93
Maven
2021年2月
嗨
@lionelderkrikor
,
嗨
@mschmitz
,
首先感谢您的贡献!这是一个非常有趣的方法!
我感兴趣的问题是,除了RapidMiner中的Perplexity之外,在多大程度上可以考虑额外的质量措施,以确保关于最佳主题决策的整体基础?正如你所提到的,对于优化问题,我们通常不是只有一个解决方案。
提前感谢您的反馈!
最好的问候,
Fatih
0
Muhammed_Fatih_
成员
职位:
93
Maven
2021年3月
亲爱的社区,
谁能就上述关于确定最优主题的评价措施的问题给出反馈?
最好的问候,
Fatih
0
登录
或
注册
置评。
答案
德国多特蒙德
嗨@mschmitz,
首先感谢您的贡献!这是一个非常有趣的方法!
我感兴趣的问题是,除了RapidMiner中的Perplexity之外,在多大程度上可以考虑额外的质量措施,以确保关于最佳主题决策的整体基础?正如你所提到的,对于优化问题,我们通常不是只有一个解决方案。
提前感谢您的反馈!
最好的问候,
Fatih
谁能就上述关于确定最优主题的评价措施的问题给出反馈?
最好的问候,
Fatih