我是数据科学的初学者,我正在使用推文开展文本分析/情感分析项目。 我一直试图做的是在我的推文训练集上执行一些维度减少,并将训练集提供给NaiveBayes学习者,并使用学习的NaiveBayes来预测测试推文集上的情绪。
我一直在关注本文中的步骤:
对于像我这样的初学者来说,他们的解释太简短了。我已经使用lsa()创建了一个标记为"大LSA空间(3个元素)"在RStudio。按照他们的例子,我创建了另外3个数据框:
lsa.train.tk = as.data.frame(lsa.train$tk)
lsa.train.dk = as.data.frame(lsa.train$dk)
lsa.train.sk = as.data.frame(lsa.train$sk)
当我查看 lsa.train.tk 数据时,它看起来像这样( lsa.train.dk 看起来非常类似于此矩阵):
我的 lsa.train.sk 如下所示:
我的问题是,我如何解释这些信息? 我如何利用这些信息来创造一些我可以提供给我的NaiveBayes学习者的东西?我尝试使用lsa.train.sk为NaiveBayes学习者,但我想不出任何可以证明我尝试过的好的解释。任何帮助将不胜感激!
修改 到目前为止我做了什么:
我的问题是:
准确度只有50%...而且我意识到它将所有内容都标记为积极情绪(如果我的测试集只包含负面情绪推文,我可以获得1%的准确度)。
当前代码不可扩展。因为它使用大型矩阵,所以我只能处理多达3.5k行的数据。更重要的是,我的电脑会崩溃。因此我想做一个降维以便我可以处理更多数据(例如10k或100k行的推文)