应用错误收集

我正在开展一项研究项目，该项目将对推文上的情绪分析与金融市场指数（如S＆amp; P500和VIX）联系起来。我的工作基于Tetlock (2007)论文。

所以我根据Harvard IV心理词典对每个推文中的每个单词进行了分类，然后每天对其进行总结（即每天获得每个类别的频率）。然后，重新调整我的频率除以当天所有推文的总字数。另外，我只选择了几个类别而不是全部180 +。

这个想法是构建一个能够捕捉这些推文的潜在情绪的因素，显而易见的选择是在我的频率情绪类别数据上运行PCA（这也是Tetlock的方法）。

我的问题是像Pstv和Ngtv这样的类别对第一个因子有相同的加载符号，而我预计它们会有相反的符号。 Here is a print screen of the R console where we see the loadings和here the screeplot of the components。

任何想法为什么会发生这种情况？