对一组tweet进行主成分分析。

rcamacho · 2016年10月

你好!首先，如果这个话题在某处被发现了，我很抱歉。我花了相当多的时间试图寻找一种方法。

我发现了2个社会科学研究，使用快速Miner使用文本数据的PCA。他们在一个表格中显示了哪些单词具有特定因素的最高特征值。我对学习如何做到这一点很感兴趣，但到目前为止，我一直对缺乏过程/步骤感到沮丧。我也想知道，如果它是如此基本，没有方法来解释这个过程?

更具体地说，我有兴趣分析一个包含2000条tweet的excel文件(对于初学者)。提前感谢您的真诚协助!

Thomas_Ott · 2016年11月

如果不看全文，很难弄清楚他们到底做了什么。

我怀疑它一定是这样的:

<？xml version="1.0" encoding="UTF-8"?> <过程version = " 7.2.003”>
> <上下文
<输入/ >
<输出/ >
<宏/ >
> < /上下文

<过程扩展= " true " >




< /操作符>



< /操作符>

<列出关键= " function_descriptions " >

< / >列表
< /操作符>




< /操作符>



< /操作符>

<列出关键= " function_descriptions " >

< / >列表
< /操作符>




<列出关键= " set_additional_roles " / >
< /操作符>



< /操作符>


<列出关键= " specify_weights " / >
<过程扩展= " true " >






> < /过程
< /操作符>

















> < /过程
< /操作符>
> < /过程

也就是说，我对他们的模型100%的准确性持谨慎态度。

Thomas_Ott · 2016年10月

你能提供这是在哪里做的链接吗?我最初的想法是通过使用TFIDF或其他东西将文本转换为Word vector。

rcamacho · 2016年11月

你好!在这里是一篇声称可以做到的文章。如果我不能提供整篇文章，我很抱歉，但引用具体的部分…

“我们将中国的新闻报道从菲律宾的新闻报道中分离出来，然后从两组独立的词汇中提取主成分。这个过程直观上类似于主成分分析对量化变量的处理。”(Montiel et al.， 2014)

rcamacho · 2016年11月

谢谢你！我会试着弄明白这个。

你好,陌生人!

快速链接

类别

Altair RapidMiner社区

得到帮助。学习最佳实践。与你的同事建立联系。

对一组tweet进行主成分分析。

最佳答案

答案