对一组tweet进行主成分分析。

rcamachorcamacho 成员职位:3.贡献我
2018年11月编辑 帮助

你好!首先,如果这个话题在某处被发现了,我很抱歉。我花了相当多的时间试图寻找一种方法。

我发现了2个社会科学研究,使用快速Miner使用文本数据的PCA。他们在一个表格中显示了哪些单词具有特定因素的最高特征值。我对学习如何做到这一点很感兴趣,但到目前为止,我一直对缺乏过程/步骤感到沮丧。我也想知道,如果它是如此基本,没有方法来解释这个过程?

更具体地说,我有兴趣分析一个包含2000条tweet的excel文件(对于初学者)。提前感谢您的真诚协助!

标记:

最佳答案

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽
    解决方案接受

    如果不看全文,很难弄清楚他们到底做了什么。

    我怀疑它一定是这样的:

    <?xml version="1.0" encoding="UTF-8"?> <过程version = " 7.2.003”>
    > <上下文
    <输入/ >
    <输出/ >
    <宏/ >
    > < /上下文

    <过程扩展= " true " >

    也就是说,我对他们的模型100%的准确性持谨慎态度。:)

答案

  • Thomas_OttThomas_Ott RapidMiner认证分析师,RapidMiner认证专家,成员职位:1761年独角兽

    你能提供这是在哪里做的链接吗?我最初的想法是通过使用TFIDF或其他东西将文本转换为Word vector。

    rcamacho
  • rcamachorcamacho 成员职位:3.贡献我

    你好!在这里是一篇声称可以做到的文章。如果我不能提供整篇文章,我很抱歉,但引用具体的部分…

    “我们将中国的新闻报道从菲律宾的新闻报道中分离出来,然后从两组独立的词汇中提取主成分。这个过程直观上类似于主成分分析对量化变量的处理。”(Montiel et al., 2014)

  • rcamachorcamacho 成员职位:3.贡献我

    谢谢你!我会试着弄明白这个。

登录注册置评。