确定从数据中提取主题(LDA)操作符中主题数量的最佳方法是什么

cmotencmoten 成员职位:2学我
我有一个数据集,由用户列出产品名称的数千种方式组成。比如苹果的MacBook、MacBook、MacBookPro等。其中包括各种各样的产品,但我试图将人们描述它们乐鱼官网手机版下载的相似方式归类为集群。从数据操作符提取主题似乎正在做的伎俩,但我手动选择组的数量。有没有一种方法可以根据相似性来确定组的数量?我希望这是有意义的。

最佳答案

答案

  • cmotencmoten 成员职位:2学我
    非常感谢你的例子。这很有帮助。看起来您正在用逗号分隔文本并将其保存为列。然后翻转数据,使列作为行列出,并将最后一列重命名为“text”。然后将所有单独的示例集附加到一个示例集中。

    Optimization Parameter确定主题的最佳数量是6,但是从数据提取主题操作符上列出的主题数量似乎仍然显示为10。优化参数的结果将作为Extract Topics的参数传递。我想我知道它是怎么运作的。

    我尝试应用到我的数据集,并最初收到一个错误。我认为整体尺寸太大了,所以我取了一个数据样本,它奏效了。结果没有得到我想要的,但我将有另一个过程添加到我的工具带。我会继续试验的。再次感谢你的帮助。
    lionelderkrikor
  • LaraNeuLaraNeu 成员职位:4学我
    嗨,我很高兴我找到了这篇文章,因为我需要为我的LDA分析找到最佳数量的主题。感谢您的过程!我在多个数据集上运行它来测试它,但奇怪的是,对于我使用的任何数据集,结果总是5个主题。我做错什么了吗?除了更改数据集之外,我还需要在过程中调整一些东西吗?如果你能帮忙,请告诉我。非常感谢!
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    @LaraNeu

    有点棘手的问题。困惑会给你提示去哪里看,但有时你只需要自己检查一下,因为有时只有多个“正确的解决方案”。我的主要例子是我在这里写的一篇文章:https://towardsdatascience.com/topic-mining-on-amazon-reviews-ae76fc286c61。如果话题数量少,你就会有一个“热饮”话题。使用更多的话题,它分为茶和咖啡。两者都有道理,但你需要决定你想要什么。

    就指标而言,我是排他性的粉丝,因为我在解释它方面做得更好。

    最好的
    马丁

    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    @lionelderkrikor
    @mschmitz

    首先感谢您的贡献!这是一个非常有趣的方法!

    我感兴趣的问题是,除了RapidMiner中的Perplexity之外,在多大程度上可以考虑额外的质量措施,以确保关于最佳主题决策的整体基础?正如你所提到的,对于优化问题,我们通常不是只有一个解决方案。

    提前感谢您的反馈!

    最好的问候,

    Fatih
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    亲爱的社区,

    谁能就上述关于确定最优主题的评价措施的问题给出反馈?

    最好的问候,

    Fatih
登录注册置评。