关于聚类方法的降维作用

Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
你好,社区,

我计划在TF-IDF单词表示包上评估几种聚类技术,我之前已经执行了一个特征选择,以有效地减少向量空间的维数。从这个意义上说,我读到过,如果随后应用聚类算法,那么特征提取/转换方法在降维方面比特征选择方法得到更好的结果。首先,你如何看待这个观点脱离了理论?

其次,如前所述,我仍然执行Feature Selection。基于从特征选择中得到的剩余维度额外执行特征提取是否正确?还是应该将有效聚类的特征提取应用于初始的粗糙数据集?

感谢大家的参与和回答!

最好的问候!


Jasmine_

最佳答案

答案

  • varunm1varunm1 主持人,职位:1207年独角兽
    2020年2月编辑
    我读到,如果之后应用聚类算法,特征提取/转换方法在降维方面比特征选择方法得到更好的结果

    根据你的问题,我假设你是在谈论像PCA, ICA或其他一些与你的数据(n-grams等)相关的技术。像PCA这样的降维方法的一个主要缺点是可解释性的丧失。如果你想解释/解释,那么特征选择是保留原始特征的方法。如果你的重点是做降维,那么特征提取可以做。你可以在解释不是很重要的地方使用它。

    我认为两者(提取/选择)看起来很相似,但它们有不同的目的。我不确定说特征提取比选择更好是否总是正确的。

    其次,如前所述,我仍然执行Feature Selection。基于从特征选择中得到的剩余维度额外执行特征提取是否正确?
    是的,你可以两者兼得。我通常先进行特征提取,然后再进行特征选择。据我所知没有什么不对的。
    问候,
    Varun
    https://www.varunmandalapu.com/

    是安全的。遵循预防措施并保持社交距离

    Jasmine_
  • IngoRMIngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区经理、RMResearcher、会员、大学教授职位:1751年RM创始人
    你好,
    不过,在聚类的特征选择上要小心:如果你只是对DB-Index这样的东西进行优化,而没有进行多目标优化,你最终会得到微不足道的解决方案,数据空间会崩溃,聚类也不再有任何意义。我建议大家去看看我多年前写的一些关于这个问题的论文。不过还是有相关的。我相信你可以在网上找到它们:

    Mierswa, Ingo和Wurst, Michael。无监督学习的信息保持多目标特征选择。在Maarten Keijzer, Mike catolico, Dirk Arnold, Vladan Babovic, Christian Blum, Peter Bosman, Martin V. Butz, Carlos Coello, Dipankar Dasgupta, Sevan G. Ficici, James Foster, Arturo Hernandez-Aguirre, Greg Hornby, Hod Lipson, Phil McMinn, Jason Moore, Guenther Raidl, Franz Rothlauf, Conor Ryan, Dirk Thierens(编辑),GECCO '06:第八届遗传与进化计算年会论文集,第1545—1552页,美国纽约,美国,ACM出版社,2006年。

    或者你也可以去读完整的博士学位,它也涵盖了很多相关的主题:


    还有一个PDF格式的…

    欢呼,
    Ingo
    varunm1 Jasmine_ sgenzer
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    @IngoRM

    谢谢你的文献推荐!

    但是,您写道,在使用特征选择和聚类时应该小心。但是,如果您想将聚类结果解释为之后的结果,那么对于有效的降维和随后的聚类,您还有其他选择吗@varunm1提到吗?除了像LDA这样的主题建模方法之外,我没有看到任何其他方法。

    提前感谢您的回答!
    Jasmine_
  • Muhammed_Fatih_Muhammed_Fatih_ 成员职位:93Maven
    @mschmitz

    有趣的方法。所以你开始基于PCA值进行聚类然后尝试通过使用决策树给检测到的聚类一个意义,对吧?

    最好的问候!
    Jasmine_
  • MartinLiebigMartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3362年RM数据科学家
    你好,
    差不多是的。诀窍在于你可以在原始特征空间上进行解释,而不是在PCA-ed的特征空间上。

    最好的
    马丁
    - RapidMin乐鱼平台进入er数据科学服务主管
    德国多特蒙德
    Jasmine_ Muhammed_Fatih_
  • IngoRMIngoRM 管理员、版主、员工、RapidMiner认证分析师、RapidMiner认证专家、社区经理、RMResearcher、会员、大学教授职位:1751年RM创始人
    你好,
    马丁的方法奏效了。
    但是,如果您想要解释聚类结果,对于有效的降维和随后的聚类,您还有其他选择吗
    另一种选择是在原始空间中使用多目标优化进行特征选择。然而,你需要最大化功能的数量,而不是最小化。更多的细节可以在我上面提到的论文中找到。
    欢呼,
    Ingo
    Jasmine_ Muhammed_Fatih_
登录注册置评。