从推文创建稀疏矩阵

时间:2016-12-06 23:07:19

标签: r twitter sparse-matrix sentiment-analysis

我有一些推文和其他变量,我想将其转换为稀疏矩阵。

这基本上就是我的数据。现在它保存在data.table中,其中一列包含推文,一列包含得分。

Tweet               Score
Sample Tweet :)        1
Different Tweet        0

我想将其转换为如下所示的矩阵:

Score Sample Tweet Different :)
    1      1     1         0  1
    0      0     1         1  0

我的data.table中每行的稀疏矩阵中有一行。在R中有一种简单的方法吗?

1 个答案:

答案 0 :(得分:1)

这接近你想要的

library(Matrix)
words = unique(unlist(strsplit(dt[, Tweet], ' ')))

M = Matrix(0, nrow = NROW(dt), ncol = length(words))
colnames(M) = words

for(j in 1:length(words)){
  M[, j] = grepl(paste0('\\b', words[j], '\\b'), dt[, Tweet])
}

M = cbind(M, as.matrix(dt[, setdiff(names(dt),'Tweet'), with=F]))

#2 x 5 sparse Matrix of class "dgCMatrix"
#     Sample Tweet :) Different Score
#[1,]      1     1  .         .     1
#[2,]      .     1  .         1     .

唯一的小问题是正则表达式没有将':)'识别为单词。也许更了解正则表达式的人可以建议如何解决这个问题。