如何使用LSA在R

时间:2016-03-17 00:10:00

标签: r sentiment-analysis dimensionality-reduction lsa

我是数据科学的初学者,我正在使用推文开展文本分析/情感分析项目。 我一直试图做的是在我的推文训练集上执行一些维度减少,并将训练集提供给NaiveBayes学习者,并使用学习的NaiveBayes来预测测试推文集上的情绪。

我一直在关注本文中的步骤:

http://www.analyticskhoj.com/data-mining/text-analytics-part-iv-cluster-analysis-on-terms-and-documents-using-r/

对于像我这样的初学者来说,他们的解释太简短了。

我已经使用lsa()创建了一个标记为"大LSA空间(3个元素)"在RStudio。按照他们的例子,我创建了另外3个数据框:

lsa.train.tk = as.data.frame(lsa.train$tk)
lsa.train.dk = as.data.frame(lsa.train$dk)
lsa.train.sk = as.data.frame(lsa.train$sk)

当我查看 lsa.train.tk 数据时,它看起来像这样( lsa.train.dk 看起来非常类似于此矩阵):

enter image description here

我的 lsa.train.sk 如下所示:

enter image description here

我的问题是,我如何解释这些信息? 我如何利用这些信息来创造一些我可以提供给我的NaiveBayes学习者的东西?我尝试使用lsa.train.sk为NaiveBayes学习者,但我想不出任何可以证明我尝试过的好的解释。任何帮助将不胜感激!

修改 到目前为止我做了什么:

  1. 将所有内容都制成术语文档矩阵
  2. 将矩阵传入NaiveBayes学习者
  3. 使用学习算法进行预测
  4. 我的问题是:

    1. 准确度只有50%...而且我意识到它将所有内容都标记为积极情绪(如果我的测试集只包含负面情绪推文,我可以获得1%的准确度)。

    2. 当前代码不可扩展。因为它使用大型矩阵,所以我只能处理多达3.5k行的数据。更重要的是,我的电脑会崩溃。因此我想做一个降维以便我可以处理更多数据(例如10k或100k行的推文)

0 个答案:

没有答案