Question

我是数据科学的初学者，我正在使用推文开展文本分析/情感分析项目。我一直试图做的是在我的推文训练集上执行一些维度减少，并将训练集提供给NaiveBayes学习者，并使用学习的NaiveBayes来预测测试推文集上的情绪。

我一直在关注本文中的步骤：

对于像我这样的初学者来说，他们的解释太简短了。

我已经使用lsa（）创建了一个标记为＆＃34;大LSA空间（3个元素）＆＃34;在RStudio。按照他们的例子，我创建了另外3个数据框：

lsa.train.tk = as.data.frame(lsa.train$tk)
lsa.train.dk = as.data.frame(lsa.train$dk)
lsa.train.sk = as.data.frame(lsa.train$sk)

当我查看 lsa.train.tk 数据时，它看起来像这样（ lsa.train.dk 看起来非常类似于此矩阵）：

我的 lsa.train.sk 如下所示：

我的问题是，我如何解释这些信息？我如何利用这些信息来创造一些我可以提供给我的NaiveBayes学习者的东西？我尝试使用lsa.train.sk为NaiveBayes学习者，但我想不出任何可以证明我尝试过的好的解释。任何帮助将不胜感激！

修改到目前为止我做了什么：

我的问题是：

准确度只有50％...而且我意识到它将所有内容都标记为积极情绪（如果我的测试集只包含负面情绪推文，我可以获得1％的准确度）。
当前代码不可扩展。因为它使用大型矩阵，所以我只能处理多达3.5k行的数据。更重要的是，我的电脑会崩溃。因此我想做一个降维以便我可以处理更多数据（例如10k或100k行的推文）