我正在开展一项研究项目,该项目将对推文上的情绪分析与金融市场指数(如S& P500和VIX)联系起来。我的工作基于Tetlock (2007)论文。
所以我根据Harvard IV心理词典对每个推文中的每个单词进行了分类,然后每天对其进行总结(即每天获得每个类别的频率)。然后,重新调整我的频率除以当天所有推文的总字数。另外,我只选择了几个类别而不是全部180 +。
这个想法是构建一个能够捕捉这些推文的潜在情绪的因素,显而易见的选择是在我的频率情绪类别数据上运行PCA(这也是Tetlock的方法)。
我的问题是像Pstv和Ngtv这样的类别对第一个因子有相同的加载符号,而我预计它们会有相反的符号。 Here is a print screen of the R console where we see the loadings和here the screeplot of the components。
任何想法为什么会发生这种情况?